中文专利文本结构信息提取方法  

Extraction method of Chinese patent text structure information

在线阅读下载全文

作  者:吕国燕 戴佳呈 吕学强[1] 游新冬 LYU Guo-yan;DAI Jia-cheng;LYU Xue-qiang;YOU Xin-dong(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;School of Foreign Languages,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京信息科技大学外国语学院,北京100192

出  处:《计算机工程与设计》2025年第3期665-672,共8页Computer Engineering and Design

基  金:国家自然科学基金项目(62171043);北京市自然科学基金项目(4212020);国家语委基金项目(ZDI145-10);北京市教育委员会科学研究计划基金项目(KM202111232001)。

摘  要:专利文本的主体-行为-客体(SAO)结构提取直接影响着专利相似性计算、专利聚类与分类等专利文本挖掘下游任务的应用与效果,但目前存在效率低下和提取结构信息不充分等问题。对此进一步提取中文专利文本的技术方法F和功能效果E。为解决这一全新任务,提出一种基于深度语义的提取模型,通过词嵌入更好理解专利文本的语义信息,利用双向长短期记忆捕捉长距离的上下文依赖关系,应用多头注意力对关键特征进行更精准的关注。实验结果表明,该方法相较于传统SAO提取方法F1值提升了5.15%,验证了高效提取SAO、F和E结构时,模型各部分的正向效果。The extraction of the subject-action-object(SAO) structure in patent texts directly impacts applications and effectiveness in downstream tasks of patent text mining,such as similarity calculations,clustering,and classification.However,current methods face issues of low efficiency and insufficient structural information extraction.Technical methods F and functional effects E were advanced for extracting the SAO structure in Chinese patent texts.To solve this novel task,a deep semantics-based extraction model was proposed,which utilized the word embedding model to better understand the semantic information in patent texts,the bidirectional long short-term memory was used to capture long-distance context dependencies,and the multi-head attention was applied to focus on key features more accurately.Experimental results show that this method improves the F1 value by 5.15% compared with the traditional SAO extraction method.It also verifies the positive effects of each part of the model when efficiently extracting the SAO,F and E structures.

关 键 词:主体-行为-客体结构 中文专利 技术方法 功能效果 词嵌入 双向长短期记忆 多头注意力 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象