基于潜在特征词的文本相似度计算方法  被引量:5

Text similarity calculation based on potential feature words

在线阅读下载全文

作  者:杨云[1] 吴亚男[1] 李健[1] 

机构地区:[1]陕西科技大学电气与信息工程学院,陕西西安710021

出  处:《计算机工程与设计》2011年第2期572-575,共4页Computer Engineering and Design

基  金:国家自然科学基金项目(50372037);陕西省科技厅自然科学基础研究计划项目(SJ08E103);陕西科技大学科研启动基金项目(BJ10-01)

摘  要:针对传统文本相似度计算方法中,词语权重定义TF-IDF方法仅考虑词频信息,而没有考虑特征词在文本中的位置因子,提出了相应的改进方法。另外,在建立文本向量模型,选择特征词时,对于与高权值词语有较高共现率、语义相近的潜在特征词也进行了深入的分析与挖掘。最后,结合几种常见的传统特征选择方法对特征集合进行精简、优化,更加准确的建立了文本向量模型,实验结果表明了改进后算法的有效性和可靠性。When calculating the text similarity by traditional methods, the position words appeared is not taken into account in the definition of word weight but only word frequency information. The improved method was presented. Moreover, in the establishment of text vector model and the extraction of the feature words, it analyzed and mined the potential feature words that have high rate and semantic similar as for feature words. Then, streamlined and optimized the feature set combing the traditional methods offeature selection. Therefore, it can establish the model of the text vector more accurately, and the experiment demonstrated the effectiveness and reliability of improved algorithm.

关 键 词:特征选择 位置因子 词语关联度 潜在特征词 文本相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象