检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:牛奉高[1] 高旭霞 Niu Fenggao;Gao Xuxia(School of Mathematical Sciences,Shanxi University,Taiyuan 030006)
出 处:《情报学报》2021年第3期278-285,共8页Journal of the China Society for Scientific and Technical Information
基 金:山西省优秀青年基金项目“加权共现潜在语义向量空间模型及其在文本主题聚类应用中的惩罚性矩阵分解研究”(201801D211002);山西省高等学校优秀成果培育项目“共现潜在语义向量空间模型及其在文本主题聚类与推荐应用中的研究”(2019KJ004);国家自然科学基金项目“共现潜在语义向量空间模型及其语义核的构建与应用研究”(71503151)。
摘 要:随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。With the advent of text information explosion,data mining has become a principal method of knowledge discovery.The similarity measurement of text is an important technique in data mining.To improve the accuracy of the similarity calculation of short text,we propose a new similarity measurement model based on the weighted network.First,the semantic network is weighted based on the co-occurrence frequency of words,and the weighted complex network is used to represent the short text.Second,considering the feature of low weight recognition of the weighted complex network in the short text and the position of each word node,the weighted complex network characteristic value of each word in the short text is calculated.Finally,the similarity of short texts is considered based on the new model,and the model is evaluated by clustering of short texts.Our experimental results indicate that the new method is better than the STSim model.
关 键 词:STSim模型 加权复杂网络 加权综合特征值 短文本 语义相似性
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15