基于SAO-Onto知识模型的中文专利语义搜索与评估方法  被引量:1

Semantic Search and Evaluation Methods of Chinese Patents Using SAO-Onto Knowledge Model

在线阅读下载全文

作  者:滕昊 王楠 赵宏宇[3] 王亚可 曹政 TENG Hao;WANG Nan;ZHAO Hongyu;WANG Yake;CAO Zheng(Computer School,Beijing Information Science and Technology University,Beijing 100101,China;Beijing key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;Tencent Technology(Beijing)Co.Ltd,China,Beijing 100037,China)

机构地区:[1]北京信息科技大学计算机学院,北京100101 [2]北京信息科技大学、网络文化与数字传播北京市重点实验室,北京100101 [3]腾讯科技(北京)有限公司,北京100037

出  处:《山西大学学报(自然科学版)》2023年第2期263-272,共10页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(61671070);北京市自然科学基金(4212020);北京信息科技大学校科研基金项目(2021XJJ27);北京信息科技大学大学生创新创业训练计划项目(5112210832)。

摘  要:文章提出了一种面向中文专利语义搜索的新方案。通过对涉及审查、无效、侵权等专利对比文件的挖掘,构建了用于语义搜索评估的匹配数据集和排序数据集。从SAO(Subject-Action-Object)三元组知识抽取出发,融合百科知识和HowNet语言知识库,设计开发了SAO知识模型(SAO-Onto)来辅助SAO各元素的语义扩展。综合考虑相似阈值、权重计算、召回排序等策略进一步改进了语义匹配方案。研究结果表明,本文所提出方案在专利召回和排序两个环节中均取得了较好的效果,可以有效提升中文专利语义搜索能力,为后续的工业级应用奠定了基础。This paper proposes a new scheme for Chinese patent semantic search.A matching dataset and a ranking dataset for the semantic retrieval are constructed by mining the comparison documents of the patents in examination and those of invalidity and infringement.With the SAO(Subject-Action-Object)triples extraction,an SAO ontology model(SAO-Onto)is designed and developed to assist the semantic extension of SAO elements by incorporating the encyclopedia knowledge and the HowNet linguistic base.The semantic sentence matching scheme is comprehensively improved by combining the factors of the similarity threshold,weighted strategies and ranking methods.The experiment results have demonstrated that the proposed scheme has achieved better goals both in recalling and ranking stages,and can effectively enhanced the semantic search capability of Chinese patents.This methodology provides a solid foundation for the subsequent industrial conversion and field applications.

关 键 词:专利 SAO-Onto 语义搜索 HOWNET 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象