融合深度语义表示的开放域复述模板抽取被引量：2

Mining Paraphrase Template with Deep Semantic Representation from Open Domain

作　　者：金波刘明童张玉洁[1] 徐金安[1] 陈钰枫[1] JIN Bo;LIU Mingtong;ZHANG Yujie;XU Jinan;CHEN Yufeng(Beijing Jiaotong University,Beijing 100044,China)

机构地区：[1]北京交通大学计算机与信息技术学院,北京100044

出　　处：《情报工程》2021年第5期40-50,共11页Technology Intelligence Engineering

基　　金：国家自然科学基金(61876198,61976015,61370130,61473294);北京市自然科学基金(4172047);科学技术部国际科技合作计划(K11F100010)

摘　　要：[目的/意义]复述知识在自然语言处理领域应用广泛,例如复述生成、自动问答、复述数据构建等,复述模板是复述知识的一种抽象表现形式。[方法/过程]早期复述模板抽取方法依赖复述实例和可比语料,近年来,有研究在人工给定种子实体对的基础上,利用实体关系,通过自举迭代的方式获取复述模板,规避对特定语料依赖,但是只能获得语义受限的复述模板,且迭代过程中存在语义偏移现象。因此本文提出从英文维基百科的大规模开放域文本中自动获取复述模板的思路,针对问题,设计融合深度语义表示学习的复述模板抽取方法,从大规模开放域文本中抽取高精度多样化的复述模板。[结果/结论]实验结果表明,本文所提方法可以获取高质量、语义一致、形式多样的复述模板。[Objective/Significance]Paraphrase knowledge plays a vital role in many tasks in the field of natural language processing,such as paraphrase generation,automatic question answering,construction of paraphrase data,etc.Paraphrase template extraction is an important way to obtain paraphrase knowledge. [Methods/Process] This paper proposes a sentence- level paraphrase template extraction method based on semantic representation and automatic clustering algorithm to extract high- precision and diverse paraphrase templates from open domain. [Results /Conclusions] Our experiments on the Wikipedia English corpus show that the proposed method can effectively obtain semantically similar and diverse forms of paraphrase templates.

关键词：复述模板语义表示自动聚类

分类号：G35[文化科学—情报学] TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合深度语义表示的开放域复述模板抽取被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合深度语义表示的开放域复述模板抽取 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

融合深度语义表示的开放域复述模板抽取被引量：2