检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王杰[1] 李德玉[1,2] 王素格[1,2] WANG Jie LI De-yu WANG Su-ge(School of Computer & Information Technology, Shanxi University, Taiyuan 030006, China Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China)
机构地区:[1]山西大学计算机与信息技术学院,太原030006 [2]山西大学计算智能与中文信息处理教育部重点实验室,太原030006
出 处:《计算机科学》2016年第10期206-210,224,共6页Computer Science
基 金:国家自然科学基金项目(61175067;61272095;61573231;61432011;U1435212);国家"863"高技术研究发展计划基金项目(2015AA015407);山西省回国留学人员科研项目(2013-014);山西省科技基础条件平台计划项目(2015091001-0102)资助
摘 要:非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。In the imbalanced datasets, the imbalanced distribution of the samples is often accompanied by the imbalanced distribution of features. The features,which often appear in the majority class, rarely appear in the minority class. Ac- cording to the characteristics of the imbalanced feature distribution, we proposed a new two-side fisher (TSF) feature selection method. TSF can control combination of positive features and negative features explicitly and tackle the imba- lanced problem in the level of feature. Experiments are conducted on the book reviews and COAE2014 imbalanced data- set. Experimental results indicate that TSF is an effective feature selection method for the imbalanced problem.
关 键 词:非平衡 文本情感分类 正负相关特征 双边特征选择
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.119