多特征融合的文本相似度方法  被引量:1

Method of text similarity based on multi⁃feature fusion

在线阅读下载全文

作  者:邹丽强 何月顺[1] ZOU Liqiang;HE Yueshun(East China University of Technology,Nanchang 330013,China)

机构地区:[1]东华理工大学,江西南昌330013

出  处:《现代电子技术》2023年第11期103-108,共6页Modern Electronics Technique

基  金:国家自然科学基金资助项目(41872243)。

摘  要:通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算文本语义相似度,使用融合多向量模型的双向长短时记忆网络的注意力算法计算文本相似度。考虑上述三种特征,通过线性加权调整模型的权重以避免其中任意一种方法计算出的相似度过大或者过小对最终的文本相似度造成不好的影响。以文本相似度的实验值与真实值的均方误差作为衡量标准,均方误差越小方法效果越好。实验结果表明,MFTM算法比WBLSA、MVBLSA算法的MSE值在SICK数据集上平均降低了5.4%、1.276%,因此,提出的算法在文本相似度计算上的效果更好。The accuracy of text similarity calculation is improved by considering the problem of text similarity in natural language processing from many aspects.A text similarity method with multi⁃feature fusion is proposed.In this method,the Jaro Distance editing distance algorithm is used to combine with the same word to calculate text structure similarity,the long short⁃term memory deep structured semantic model algorithm is used to calculate text semantic similarity,and the Bi long short⁃term memory attention algorithm fused with multi⁃vector models is used to calculate text similarity.In consideration of the above three features,the weights of the model are adjusted by linear weighting to avoid any negative impact on the final text similarity caused by the similarity calculated by either method being too large or too small.The mean square error between the experimental and real values of text similarity is used as a measure standard,and the smaller the mean square error,the better the method works.The experimental results show that the MFTM algorithm has an average reduction of 5.4%and 1.276%in MSE values compared to WBLSA and MVBLSA algorithms on the SICK data set.Therefore,the proposed algorithm has better effect on the text similarity calculation.

关 键 词:特征融合 文本相似度 改进编辑距离 长短时记忆网络 双塔模型 注意力机制 

分 类 号:TN911.1-34[电子电信—通信与信息系统] TP391.1[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象