特征融合的中文专利文本分类方法研究  被引量:8

Classifying Chinese Patent Texts with Feature Fusion

在线阅读下载全文

作  者:肖悦珺 李红莲[1] 张乐 吕学强[2] 游新冬 Xiao Yuejun;Li Honglian;Zhang Le;Lv Xueqiang;You Xindong(School of Information&Communication Engineering,Beijing Information Science&Technology University,Beijing 100101,China;Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science&Technology University,Beijing 100101,China)

机构地区:[1]北京信息科技大学信息与通信工程学院,北京100101 [2]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《数据分析与知识发现》2022年第4期49-59,共11页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金项目(项目编号:62171043);北京信息科技大学“勤信人才”培育计划基金项目(项目编号:QXTCP B201908)的研究成果之一。

摘  要:【目的】为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法。【方法】基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有名词向量进行融合,并将专有名词的TF-IDF值作为权重对向量进行赋值。【结果】在自建专利文本语料库上的实验结果显示,所提方法达到84.43%的准确率、82.01%的召回率和81.23%的F;值,其中F_(1)值相较其他方法提升约5.7个百分点。【局限】实验数据主要来源于新能源汽车领域,在其他领域中的效果有待验证。【结论】改善了数据分布不均衡以及专利文本存在大量未登录词的问题。此外,通过消融实验,评估了方法中添加专有名词与TF-IDF特征的有效性。[Objective]This paper proposes a feature fusion method for patent text classification,aiming to address the low recall issues of the existing methods,which do not utilize the unregistered words.[Methods]First,we fused the sentence vector pre-trained by BERT and the proper noun vector.Then,we used the TF-IDF value of the proper nouns as the weight assigned to the vector.[Results]We examined our model with the selfbuilt patent text corpus.Its accuracy,recall and F_(1)values were 84.43%,82.01%and 81.23%respectively.The F;value was about 5.7%higher than other methods.[Limitations]The experimental data were mainly collected from the field of new energy vehicles,which need to be expanded.[Conclusions]The proposed method could effectively process the unbalanced data and unregistered words in patent texts.

关 键 词:专利 文本分类 特征融合 BERT TF-IDF 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象