检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]陕西科技大学电气与信息工程学院,陕西西安710021
出 处:《计算机工程与设计》2011年第2期572-575,共4页Computer Engineering and Design
基 金:国家自然科学基金项目(50372037);陕西省科技厅自然科学基础研究计划项目(SJ08E103);陕西科技大学科研启动基金项目(BJ10-01)
摘 要:针对传统文本相似度计算方法中,词语权重定义TF-IDF方法仅考虑词频信息,而没有考虑特征词在文本中的位置因子,提出了相应的改进方法。另外,在建立文本向量模型,选择特征词时,对于与高权值词语有较高共现率、语义相近的潜在特征词也进行了深入的分析与挖掘。最后,结合几种常见的传统特征选择方法对特征集合进行精简、优化,更加准确的建立了文本向量模型,实验结果表明了改进后算法的有效性和可靠性。When calculating the text similarity by traditional methods, the position words appeared is not taken into account in the definition of word weight but only word frequency information. The improved method was presented. Moreover, in the establishment of text vector model and the extraction of the feature words, it analyzed and mined the potential feature words that have high rate and semantic similar as for feature words. Then, streamlined and optimized the feature set combing the traditional methods offeature selection. Therefore, it can establish the model of the text vector more accurately, and the experiment demonstrated the effectiveness and reliability of improved algorithm.
关 键 词:特征选择 位置因子 词语关联度 潜在特征词 文本相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.221.72.117