用AdaBooster算法实现中文文本分类问题  

Using AdaBooster Algorithm to Achieve Chinese Text Categorization

在线阅读下载全文

作  者:火善栋[1] 

机构地区:[1]重庆三峡学院,重庆404000

出  处:《现代计算机》2016年第20期3-6,共4页Modern Computer

摘  要:文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBooster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用AdaBooster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。Text classification is an important element of text mining, and in many ways have a wide range of applications. In order to achieve the Chinese text classification problem, uses word segmentation and feature words statistical correlations to obtain eigenvector centrality of each type of training documentation (centroid), to achieve the Chinese document classification by comparing the test documentation from the centroid, then uses AdaBooster algorithm constantly to adjust the centroid of each type of training documents to build a strong classifier. Experiments show that: AdaBooster Chinese text classification algorithm, the algorithm is simple, fast classification correct rate, small memory and can be adjusted in real time depending on the number of iterations of training documents.

关 键 词:中文文本分类 ADA Booster算法 中文分词 文档特征向量 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象