不均衡数据集上文本分类的特征选择研究  被引量:20

A Study of Feature Selection for Text Categorization on Imbalanced Data

在线阅读下载全文

作  者:徐燕[1,2] 李锦涛[1] 王斌[1] 孙春明[1,2] 张森[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080 [2]华北电力大学,北京102206

出  处:《计算机研究与发展》2007年第z2期58-62,共5页Journal of Computer Research and Development

基  金:国家自然科学基金项目(60473002,60603094);北京市自然科学基金项目(4051004)

摘  要:文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.

关 键 词:不均衡数据集 特征选择 文本分类 信息检索 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象