基于潜在特征词的文本相似度计算方法被引量：5

Text similarity calculation based on potential feature words

出　　处：《计算机工程与设计》2011年第2期572-575,共4页Computer Engineering and Design

基　　金：国家自然科学基金项目(50372037);陕西省科技厅自然科学基础研究计划项目(SJ08E103);陕西科技大学科研启动基金项目(BJ10-01)

摘　　要：针对传统文本相似度计算方法中,词语权重定义TF-IDF方法仅考虑词频信息,而没有考虑特征词在文本中的位置因子,提出了相应的改进方法。另外,在建立文本向量模型,选择特征词时,对于与高权值词语有较高共现率、语义相近的潜在特征词也进行了深入的分析与挖掘。最后,结合几种常见的传统特征选择方法对特征集合进行精简、优化,更加准确的建立了文本向量模型,实验结果表明了改进后算法的有效性和可靠性。When calculating the text similarity by traditional methods, the position words appeared is not taken into account in the definition of word weight but only word frequency information. The improved method was presented. Moreover, in the establishment of text vector model and the extraction of the feature words, it analyzed and mined the potential feature words that have high rate and semantic similar as for feature words. Then, streamlined and optimized the feature set combing the traditional methods offeature selection. Therefore, it can establish the model of the text vector more accurately, and the experiment demonstrated the effectiveness and reliability of improved algorithm.

关键词：特征选择位置因子词语关联度潜在特征词文本相似度

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于潜在特征词的文本相似度计算方法被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于潜在特征词的文本相似度计算方法 被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于潜在特征词的文本相似度计算方法被引量：5