融合多特征的专利功效短语识别  被引量:8

Patent Efficacy Phrase Recognition Based on Multiple Features

在线阅读下载全文

作  者:罗艺雄 吕学强[1] 游新冬 LUO Yixiong;LYU Xueqiang;YOU Xindong(Beijing Key Laboratory of Internet Culture&Digital Dissemination Research,Beijing Information Science&Technology University,Beijing 100101,China)

机构地区:[1]北京信息科技大学网络文化与数字传播重点实验室,北京100101

出  处:《中文信息学报》2022年第12期139-148,共10页Journal of Chinese Information Processing

基  金:国家自然科学基金(61671070);北京信息科技大学促进高校内涵发展科研水平提高项目(2019KYNH226);北京信息科技大学“勤信人才”培育计划项目(QXTCP B201908);北京市教委科研计划资助项目(KM202111232001)。

摘  要:专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F_(1)值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。Patent efficacy is one of the key information in the patent text.To identify the patent efficacy phrase,a multiple feature approach is proposed to combine both character-level features and word-level features.The character-level features include characters,character pinyin,and character wubi.The word-level features correspond to a collection of words containing those characters.Character-level features are vectorized by word2vec or BERT.Attention mechanism is used to fuse the word-level feature vectors in the input sequence.All feature vectors are concatenated as the input of BiLSTM(or Transformer)+CRF.Experiments on patents of new energy vehicles demonstrate the best 91.15%F_(1)value is achieved by BiLSTM+CRF with the combination of word2vec character vector,Bert character vector,wubi feature vector and word feature vector.

关 键 词:专利功效短语 多特征融合 神经网络 注意力机制 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象