基于特征词权重的文本分类  被引量:1

Text Classification Based on Weight of Feature Words

在线阅读下载全文

作  者:杨莉[1,2] 万常选[1,2] 雷刚[1,2] 俞涛[1,2] 孔保新[1,2] 

机构地区:[1]江西财经大学信息管理学院,江西南昌330013 [2]江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013

出  处:《计算机与现代化》2012年第10期8-13,共6页Computer and Modernization

基  金:国家自然科学基金资助项目(61173146);国家社会科学基金资助项目(12CTQ042);江西省自然科学基金资助项目(2010GZS0067);江西省教育厅科技重点项目(GJJ09650)

摘  要:在文本分类时,只有少数学者利用特征词权重对文本进行向量表示,但是所使用的特征选择算法没有考虑特征词权重的正负及其范围等。因此,本文在CHI统计基础上提出一种计算特征词类相关性的新方法,并根据各类特征集中包含的特征词的数量,选用不同的文本类相关性计算方法;在判定文本类别过程中,只使用文本包含的特征词的个数及其类相关性,对含特征词少的文本也能很好判别。实验表明,该方法有效可行。In text classification,only a few scholars used the weight of feature words to express text,but the method of feature selection they used didn't consider the symbol and boundary of the weight of feature words.So,on the basis of CHI statistics,this paper proposes a new way to calculate correlation-score between feature words and classification;and selects different means to get the relevance between text and classification,according to the count of feature words in each feature set.At last,in order to determine the text category,this paper just applies the number of feature words and their relevance to category,and can well judge the text contained few feature words.Experiment shows that it is an effective and feasible method to classify text.

关 键 词:文本分类 特征选择 特征词类相关性 文本类相关性 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象