基于CRFs的专利文献领域术语抽取方法  被引量:11

Method of extracting patent domain terms based on conditional random fields

在线阅读下载全文

作  者:王健[1] 殷旭[1] 吕学强[1] 徐丽萍[2] WANG Jian;YIN Xu;LYU Xue-qiang;XU Li-ping(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;Beijing Research Center of Urban System Engineering,Beijing 100089,China)

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京城市系统工程研究中心,北京100089

出  处:《计算机工程与设计》2019年第1期279-284,共6页Computer Engineering and Design

基  金:国家自然科学基金项目(61671070);北京成像技术高精尖创新中心基金项目(BAICIT-2016003);国家社会科学基金重大基金项目(14@ZH036);国家语委重点基金项目(ZDI135-53);国家语委重大课题基金项目(ZDA125-26)

摘  要:通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标注集对术语抽取性能的影响。实验结果表明,基于六词位字标注的条件随机场模型术语抽取的性能最好,准确率、召回率和F值优于对比方法中基于词、词性、词长等信息作为特征的抽取方法,验证了所提方法的有效性。After analyzing the features of terms in the Chinese patent documents about new energy vehicles,an optimization method that used the conditional random fields model to extract the terminologies based on the word sequence of three,four and six word tagging was proposed.Single character was used as the shard granularity and the recognition error caused by word segmentation in term extraction was avoided.The extraction performances on different word level tagging sets were discussed.Experimental results show that the condition of the six word tagging is the best in conditional random fields model,and the accuracy rate,recall rate and F values are better than contrast method using word,word POS,word length and other information as features to extract terms,thus verifying the effectiveness.

关 键 词:中文专利术语 术语抽取 条件随机场 序列标注 新能源汽车领域 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象