基于贝叶斯的文本分类方法  被引量:14

Way of text classification based on Bayes

在线阅读下载全文

作  者:罗海飞[1] 吴刚[1] 杨金生[1] 

机构地区:[1]上海交通大学软件学院,上海200240

出  处:《计算机工程与设计》2006年第24期4746-4748,共3页Computer Engineering and Design

摘  要:文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、互信息法、CHI统计、信息增益法等,然而上述方法对于词条的权重未作考虑,引进了权重的表征方式,给出了改进方法。由实验证明了通过以上方面的改进,文本分类的正确率得到了提高。Two important factors in text classification are discussed-algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved.

关 键 词:文本分类 特征抽取 贝叶斯 多项式 统计 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象