基于加权网络改进的中文短文本相似性度量模型  被引量:5

An Improved Similarity Measurement Model for ChineseShort Texts Based onWeighted Network

在线阅读下载全文

作  者:牛奉高[1] 高旭霞 Niu Fenggao;Gao Xuxia(School of Mathematical Sciences,Shanxi University,Taiyuan 030006)

机构地区:[1]山西大学数学科学学院,太原030006

出  处:《情报学报》2021年第3期278-285,共8页Journal of the China Society for Scientific and Technical Information

基  金:山西省优秀青年基金项目“加权共现潜在语义向量空间模型及其在文本主题聚类应用中的惩罚性矩阵分解研究”(201801D211002);山西省高等学校优秀成果培育项目“共现潜在语义向量空间模型及其在文本主题聚类与推荐应用中的研究”(2019KJ004);国家自然科学基金项目“共现潜在语义向量空间模型及其语义核的构建与应用研究”(71503151)。

摘  要:随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。With the advent of text information explosion,data mining has become a principal method of knowledge discovery.The similarity measurement of text is an important technique in data mining.To improve the accuracy of the similarity calculation of short text,we propose a new similarity measurement model based on the weighted network.First,the semantic network is weighted based on the co-occurrence frequency of words,and the weighted complex network is used to represent the short text.Second,considering the feature of low weight recognition of the weighted complex network in the short text and the position of each word node,the weighted complex network characteristic value of each word in the short text is calculated.Finally,the similarity of short texts is considered based on the new model,and the model is evaluated by clustering of short texts.Our experimental results indicate that the new method is better than the STSim model.

关 键 词:STSim模型 加权复杂网络 加权综合特征值 短文本 语义相似性 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象