检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:夏冰 李宝安 吕学强[1] XIA Bing;LI Bao-an;LYU Xue-qiang(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)
机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
出 处:《计算机工程与设计》2018年第10期3087-3091,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(61671070);北京成像技术高精尖创新中心基金项目(BAICIT-2016003);国家语委重大课题基金项目(ZDA125-26;ZDI135-53)
摘 要:为解决传统文本相似度计算方法没有充分考虑专利文本结构特殊性以及计算文本相似度过程中往往忽略词汇间语义信息的问题,在传统方法的基础上,考虑词性以及专利文本的结构特征,将IPC分类号、标题、摘要、权利要求书作为主要研究对象,词在不同位置出现分别赋予不同的权重,通过word2vec将词表示成词向量的形式,通过词汇跟词汇之间的语义信息改进余弦相似度公式。实验结果表明,提出方法相比于传统文本相似度计算方法准确率和召回率有所提高,验证了其有效性。To solve the problem that structure specificity of patent texts is not taken into full consideration and the semantic information is often neglected in the traditional text similarity computing method,a method was proposed based on the traditional method.Considering the part of speech and structural characteristics of the patent text,seeing the IPC classification number,title,abstract and claims as the main research objects,the words appearing in different position were assigned with different weight respectively,and the word was expressed as word vector form by word2vec,improving cosine similarity formula through semantic information between words and words.Experimental results show that compared with the traditional text similarity computing method,the proposed method improves the accuracy and recall rate,thus the effectiveness is verified.
关 键 词:文本相似度 专利文本结构 向量空间模型 词向量 余弦相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.225