基于多项式分布模型的Web文本分类  被引量:1

Web text categorization based on multinomial distribution model

在线阅读下载全文

作  者:史会峰[1] 卢艳霞[1] 

机构地区:[1]华北电力大学计算科学与信息系,河北保定071003

出  处:《华北电力大学学报(自然科学版)》2003年第6期83-85,共3页Journal of North China Electric Power University:Natural Science Edition

基  金:华北电力大学青年教师基金资助(060203)

摘  要:利用信息增益函数对文档进行特征提取,根据特征在文档中出现的次数,将文档表示成为向量的形式。假设文档的特征之间是相互独立的,其特征和主题类别的联合概率分布为服从多项式分布。利用训练集中已标注的文档、学习特征和主题类别的联合概率分布参数,根据学习的结果,对测试集中未分类的文档进行分类。实验结果表明,分类具有较高的准确性。By using the function of information gain, the documents attributes are obtained. Depending on the times of an attribute occurrences in the documents, the document is represented as a vector consisting of 1 and 0. Supposing that the elements of the set of attributes are mutual conditional independent, and the probability distribution of the attributes between the categories is the multinomial distribution. Using the documents in the training set, the parameter of the multinomial distribution is learned. Based on the results of learning and bay sian theory, the documents in the test set is classified.

关 键 词:互联网 WEB 文本分类 多项式分布模型 数据挖掘 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象