基于类别分布差异和特征熵的维吾尔语文本特征选择  被引量:5

Feature selection based on class distribution difference and term entropy for Uyghur text

在线阅读下载全文

作  者:阿力木江.艾沙 吐尔根.依布拉音[2] 库尔班.吾布力 瓦依提.阿不力孜 艾山.吾买尔 

机构地区:[1]新疆大学现代教育技术中心,乌鲁木齐830046 [2]新疆大学信息科学与工程学院,乌鲁木齐830046

出  处:《计算机应用研究》2013年第10期2958-2961,共4页Application Research of Computers

基  金:国家自然科学基金资助项目(61063026;61063043;61163028;61262060)

摘  要:文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题,提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况,而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验,并与一些传统的特征选择方法进行了比较。从结果来看,本方法在所选特征数更少的情况下,达到了比其他方法更高的分类MacroF1值85.3%,比传统的IG和CHI等方法在MacroF1值上分别高出了4.3%和6.1%。Text feature selection is the most important phase in automatic text categorization. In order to solve the high dimen- sionality and sparsness of text vector in Uyghur text categorization, this paper proposed the new Uyghur text feature selection method based on class distribution difference and term entropy. The propesed method not only considered the inter-class distri- bution of the term, but also considered the inner-class distribution of the term. It conducted the categorization experiments on the Uyghur text corpus using proposed method and compared with the traditional feature selection methods. The experimental results show that the categorization MacroF, value is reached 85.3% and achieves the improvement of 4.3% and 6. 1% re- spectivly comparing to IG and CHI.

关 键 词:特征选择 文本分类 特征熵 支持向量机 维吾尔语 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象