检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]桂林电子科技大学研究生学院,广西桂林541004
出 处:《计算机工程与设计》2012年第11期4338-4342,共5页Computer Engineering and Design
基 金:广西自然科学基金项目(2011GXNSFA018158);广西科学研究与技术开发计划基金项目(桂科攻11107006-45;桂科攻0996028)
摘 要:为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的特征集进行再次选择,这样既减少了特征的维数又使特征表示更有效。同时,还设计了一个文本相似度计算系统,系统中改进了传统的tf-idf。实验结果表明,改进的特征选择方法和设计的系统具有良好的性能效果。To solve that a word may has greater mutual in multiple categories which leads to the category information of the word is fuzzy, a new method for feature selection based on mutual information is proposed by establishing domain feature words (They behave domain information better) which utilize the differences in the representation of word in different domains. By the me thod, the feature set out of the established one based on the traditional mutual information is reselected. It not only reduces the dimension of the vector but also represent the text more effectively. At the same time, a text similarity calculation system is designed and in this system the tradition tf-idf is improved. The experimental results show that the improved method of feature extraction is much more superior to traditional mutual information and the performance of the system is good.
关 键 词:互信息 文本分类 特征选择 领域特征词 文本相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.157