检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:徐鑫鑫 刘彦隆 宋明 XU Xin-xin;LIU Yan-long;SONG Ming(School of Information and Computer,Taiyuan University of Technology,Jinzhong 030600,China)
机构地区:[1]太原理工大学信息与计算机学院
出 处:《小型微型计算机系统》2019年第10期2072-2076,共5页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60772101)资助;太原理工大学项目(900203011843)资助
摘 要:传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法.The original WMD distance algorithm is based on word vector and the word frequency feature vector,ignoring the context of the semantics of the word and the inability of fully extracting the semantic information in words. Therefore,a text similarity calculation method based on joint words and sentence is proposed. The method uses the trained word vector and sentence vector to construct the weighted coefficient. When the WMD distance calculation formula is improved,a certain proportion of keywords and sentence vectors are selected to calculate the word transfer cost,so as to obtain the text similarity of two documents. Three sets of experiments show that the proposed method is superior to other text similarity calculation methods and the original WMD distance algorithm.
关 键 词:文本相似度 词向量 句向量 WMD距离 增强权重系数
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15