检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027 [2]安徽省计算与通讯软件重点实验室,安徽合肥230027 [3]解放军保密委员会技术安全研究所,北京100091
出 处:《电子学报》2009年第5期1019-1024,共6页Acta Electronica Sinica
基 金:国家973课题(No.2004CB318109);国家863课题(No.2007AA11Z240);教育部新世纪优秀人才支持计划(No.NCET-07-0787)
摘 要:短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.Short text classification is a key technology in network content security application. However, the sparse features and unbalanced data of the short text make the traditional text classification method incompetent for short text classification. This paper proposed a dynamic assembly classification method for short text classification.In this method, a treelike assembly classifier was constructed to support the classification, which reduced the impact of the sparse features and unbalanced data of the short texts.Further, a dynamic adjusting strategy was presented in the construction procedure, which adjusted the combinational slructure of the classifier in an adaptive way. The experimental results show that, comparing with the traditional classifiers such as single classifier and ensemble classifier, the proposed assembly classifier gets better precision rate and recall rate.
关 键 词:短文本分类 组合分类器 动态调整策略 ADABOOST算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33