面向短文本的动态组合分类算法  被引量:32

Dynamic Assembly Classification Algorithm for Short Text

在线阅读下载全文

作  者:闫瑞[1,2] 曹先彬[1,2] 李凯 

机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027 [2]安徽省计算与通讯软件重点实验室,安徽合肥230027 [3]解放军保密委员会技术安全研究所,北京100091

出  处:《电子学报》2009年第5期1019-1024,共6页Acta Electronica Sinica

基  金:国家973课题(No.2004CB318109);国家863课题(No.2007AA11Z240);教育部新世纪优秀人才支持计划(No.NCET-07-0787)

摘  要:短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.Short text classification is a key technology in network content security application. However, the sparse features and unbalanced data of the short text make the traditional text classification method incompetent for short text classification. This paper proposed a dynamic assembly classification method for short text classification.In this method, a treelike assembly classifier was constructed to support the classification, which reduced the impact of the sparse features and unbalanced data of the short texts.Further, a dynamic adjusting strategy was presented in the construction procedure, which adjusted the combinational slructure of the classifier in an adaptive way. The experimental results show that, comparing with the traditional classifiers such as single classifier and ensemble classifier, the proposed assembly classifier gets better precision rate and recall rate.

关 键 词:短文本分类 组合分类器 动态调整策略 ADABOOST算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象