利用加权词句向量的文本相似度计算方法  被引量:8

Text Similarity Calculation with Weighted Word Vector and Sentence Vector

在线阅读下载全文

作  者:徐鑫鑫 刘彦隆 宋明 XU Xin-xin;LIU Yan-long;SONG Ming(School of Information and Computer,Taiyuan University of Technology,Jinzhong 030600,China)

机构地区:[1]太原理工大学信息与计算机学院

出  处:《小型微型计算机系统》2019年第10期2072-2076,共5页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60772101)资助;太原理工大学项目(900203011843)资助

摘  要:传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法.The original WMD distance algorithm is based on word vector and the word frequency feature vector,ignoring the context of the semantics of the word and the inability of fully extracting the semantic information in words. Therefore,a text similarity calculation method based on joint words and sentence is proposed. The method uses the trained word vector and sentence vector to construct the weighted coefficient. When the WMD distance calculation formula is improved,a certain proportion of keywords and sentence vectors are selected to calculate the word transfer cost,so as to obtain the text similarity of two documents. Three sets of experiments show that the proposed method is superior to other text similarity calculation methods and the original WMD distance algorithm.

关 键 词:文本相似度 词向量 句向量 WMD距离 增强权重系数 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象