基于词频差异的特征选取及改进的TF-IDF公式  被引量:56

Improved feature selection method and TF-IDF formula based on word frequency differentia

在线阅读下载全文

作  者:罗欣[1] 夏德麟[1] 晏蒲柳[1] 

机构地区:[1]武汉大学电子信息学院湖北武汉430079

出  处:《计算机应用》2005年第9期2031-2033,共3页journal of Computer Applications

摘  要:文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。The vectofization of documents affects the speed and accuracy of text categorization greatly. The most common used formulas: TF-IDF, MI, and IG were analyzed. The method of feature selection based on word frequency differentia was proposed and TF-IDF formula was modified to improve the quality of feature selection, the speed and accuracy of categorization.

关 键 词:特征选取 向量空间模型 文本分类 TF-IDF 信息增益 互信息量 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象