基于多代表点的文本分类研究  被引量:1

Research on Text Classification Based on Multiple Representative Points

在线阅读下载全文

作  者:陈可华[1] 

机构地区:[1]宁德师范学院计算机系,福建宁德352100

出  处:《郑州大学学报(工学版)》2010年第6期116-118,125,共4页Journal of Zhengzhou University(Engineering Science)

摘  要:文本自动分类是一种有效的组织信息和管理信息的工具,传统分类方法一般在分类效果和运行效率上两者不可兼得,通过综合Rocchio和KNN2种分类方法的优点,设计出一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好地解决不平衡类问题,实验结果显示,该方法能达到与SVM相当的分类效果.Text classification is an effective tool of organization and management for information.Traditional classification methods are not good both in the effectiveness and in efficiency.This paper designed a method of classification based on multiple representative points,firstly mining a number of effective representative points to every category,and it can be true document or virtual point, then the methods of Rocchio and KNN can be working based on those points.Experiment results show that this classification method can achieve satisfactory results in less training time,and it can solve imbalance problem well,the results show that the method can achieve significant results similar to SVM.

关 键 词:文本分类 多代表点 ROCCHIO KNN 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象