面向非平衡文本情感分类的TSF特征选择方法  被引量:6

TSF Feature Selection Method for Imbalanced Text Sentiment Classification

在线阅读下载全文

作  者:王杰[1] 李德玉[1,2] 王素格[1,2] WANG Jie LI De-yu WANG Su-ge(School of Computer & Information Technology, Shanxi University, Taiyuan 030006, China Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China)

机构地区:[1]山西大学计算机与信息技术学院,太原030006 [2]山西大学计算智能与中文信息处理教育部重点实验室,太原030006

出  处:《计算机科学》2016年第10期206-210,224,共6页Computer Science

基  金:国家自然科学基金项目(61175067;61272095;61573231;61432011;U1435212);国家"863"高技术研究发展计划基金项目(2015AA015407);山西省回国留学人员科研项目(2013-014);山西省科技基础条件平台计划项目(2015091001-0102)资助

摘  要:非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。In the imbalanced datasets, the imbalanced distribution of the samples is often accompanied by the imbalanced distribution of features. The features,which often appear in the majority class, rarely appear in the minority class. Ac- cording to the characteristics of the imbalanced feature distribution, we proposed a new two-side fisher (TSF) feature selection method. TSF can control combination of positive features and negative features explicitly and tackle the imba- lanced problem in the level of feature. Experiments are conducted on the book reviews and COAE2014 imbalanced data- set. Experimental results indicate that TSF is an effective feature selection method for the imbalanced problem.

关 键 词:非平衡 文本情感分类 正负相关特征 双边特征选择 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象