基于词频分布信息的优化IG特征选择方法  被引量:9

Improved method of IG feature selection based on word frequency distribution

在线阅读下载全文

作  者:刘海峰[1] 刘守生[1] 宋阿羚 LIU Haifeng;LIU Shousheng;SONG Aling(Institute of Sciences, PLA University of Science and Technology, Nanjing 210007, China)

机构地区:[1]解放军理工大学理学院,南京210007

出  处:《计算机工程与应用》2017年第4期113-117,122,共6页Computer Engineering and Applications

基  金:国家自然科学基金(No.61273209);江苏省自然科学基金(No.BK2012511)

摘  要:文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。Text feature selection is the core technology of text classification. Based on the deficiency of information gain model, the IG model has been improved step by step according to the feature items distribution within the class and between the classes. A kind of optimazation of IG feature selection method based on word frequency division information is presented.The text categorization test verifies the effectiveness of the proposed optimization IG model.

关 键 词:信息增益 特征选择 类内分布 类间分布 文本分类 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象