一种有效特征词发现的贝叶斯文本分类方法  被引量:1

The Bayesian Text Categorization Based on Extraction of Effectual Features

在线阅读下载全文

作  者:杨晔[1] 彭宏[2] 林嘉宜[2] 陈绍坚[3] 

机构地区:[1]广东商学院教育技术中心,广东广州510320 [2]华南理工大学计算机学院,广东广州510640 [3]广州卷烟一厂信息计算中心,广东广州510310

出  处:《系统工程》2004年第9期107-110,共4页Systems Engineering

基  金:广东省科技攻关项目(A1020103)

摘  要:根据信息学理论和贝叶斯语义模型,提出一种有效特征词发现方法,利用该方法对训练文本的原始文本特征词集进行聚类,对测试文本进行分类计算和类别标注。闭式测试的结果表明,文本识别的正确率达到了90%以上,该算法对互联网信息处理有较好的应用价值。According to information theory and Bayesian Semantic model, this paper puts forward an effective text feature extract method which clusters the original text features of the training documents into words clusters. With this method, the test documents are classified and labeled by the text categorization system. The close experiments show that the precision is more than 90%. It is supposed to have a good application prospect in the field of internet information processing.

关 键 词:文本分类 特征抽取 KL距离 正态分布 贝叶斯概率 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象