基于专利语料库的双语词典自动抽取及其在知识图谱中的应用  

Bilingual Dictionary Extraction from Patent Corpora and the Application in Knowledge Graph Construction

在线阅读下载全文

作  者:胡寅骏 殷玥 孙虎 王茜 HU Yinjun;YIN Yue;SUN Hu;WANG Qian(Shanghai Science and Technology Innovation Resources Center,Shanghai 200031;Shanghai R&D Public Service Platform,Shanghai 200031)

机构地区:[1]上海科技发展有限公司,上海200031 [2]上海市研发公共服务平台管理中心,上海200031

出  处:《中国发明与专利》2021年第2期40-46,共7页China Invention & Patent

基  金:上海市2020年度“科技创新行动计划”软科学重点项目(项目名称:上海科创中心关键创新要素图谱,编号:20692100500)资助。

摘  要:将大量中英文对照的专利文本作为平行语料库,提出一种自动抽取中英文词典的方法。先利用外部语义资源维基百科构建种子双语词典,再通过计算点互信息获得中英文词对的候补,并设置阈值筛选出用于补充种子词典的词对。实验结果表明:对英语文档进行单词的短语化有助于提高自动抽取结果的综合性能;另一方面,虽然通过句对齐方式可以提高自动抽取结果的正确率,但会对抽取结果的召回率产生负面影响。通过所述方法构建的专利双语词典能够在构建多语言版本的技术知识图谱中起到积极作用。This paper proposes a method for automatically extracting Chinese-English bilingual dictionary from parallel patent corpora.Firstly,construct a seed bilingual dictionary with extra semantic resource such as Wikipedia.Then,calculate the PMI(Point mutual information)scores for ChineseEnglish bilingual candidate word pairs,and select appropriate candidate word pairs with threshold value for expanding the seed dictionary.The experimental results showed that the phrasalization of words in English documents can improve the comprehensive performance for extracting bilingual word pairs;sentence alignment can improve the accuracy,however,it would have negative effects on the recall rate.It can reveal that extracted bilingual dictionary with proposed method can help to establish multilingual knowledge graph from patent documents.

关 键 词:专利数据 平行语料库 跨语言检索 互信息 知识图谱 

分 类 号:G306[文化科学] TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象