检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:韩栋[1] 王春华 肖敏[2] Han Dong;Wang Chunhua;Xiao Min(School of Information Engineering,Huanghuai University,Zhumadian Henan 463000,China;School of Computer Science & Technology,Wuhan University of Technology,Wuhan 430063,China)
机构地区:[1]黄淮学院信息工程学院,河南驻马店463000 [2]武汉理工大学计算机科学与技术学院,武汉430063
出 处:《计算机应用研究》2018年第12期3655-3658,共4页Application Research of Computers
基 金:国家自然科学基金资助项目(61304172);河南省科技厅科技计划资助项目(172102210117);河南省驻马店市科技计划资助项目(17135)
摘 要:针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于Ada Boost算法,在样本子集中通过多次迭代构建多个Ada Boost基分类器。最后,通过概率平均法融合多个基分类器的决策结果,以此作出最终标签预测。在四个基准数据集上的实验结果表明,该方法在平均精确度、覆盖率、排名损失、汉明损失和1-错误率方面都具有优越的性能。For the issues that the multi-label text categorization algorithm does not consider the relevance of text-terminology and accuracy is not high,this paper proposed an integrated multi-label text categorization method combining rotation forest and AdaBoost classifier. Firstly,it used the rotating forest algorithm to segment sample set,and mapped each sample subset to the new feature space by feature transformation,so as to form a plurality of sub-feature sets with large differences. Then,it used the AdaBoost algorithm to constructe multiple AdaBoost base classifiers by multiple iterations in the sample subset. Finally,it combined the decision-making results of multiple base classifiers by probability averaging method to make the final label prediction. The experimental results on the four reference datasets show that the method has superior performance in terms of average accuracy,coverage,ranking loss,hamming loss and 1-error rate.
关 键 词:多标签文本分类 文本—术语相关性 旋转森林 特征变换 ADA Boost分类器
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173