检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:火善栋[1]
机构地区:[1]重庆三峡学院,重庆404000
出 处:《现代计算机》2016年第20期3-6,共4页Modern Computer
摘 要:文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBooster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用AdaBooster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。Text classification is an important element of text mining, and in many ways have a wide range of applications. In order to achieve the Chinese text classification problem, uses word segmentation and feature words statistical correlations to obtain eigenvector centrality of each type of training documentation (centroid), to achieve the Chinese document classification by comparing the test documentation from the centroid, then uses AdaBooster algorithm constantly to adjust the centroid of each type of training documents to build a strong classifier. Experiments show that: AdaBooster Chinese text classification algorithm, the algorithm is simple, fast classification correct rate, small memory and can be adjusted in real time depending on the number of iterations of training documents.
关 键 词:中文文本分类 ADA Booster算法 中文分词 文档特征向量
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38