检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华北电力大学计算科学与信息系,河北保定071003
出 处:《华北电力大学学报(自然科学版)》2003年第6期83-85,共3页Journal of North China Electric Power University:Natural Science Edition
基 金:华北电力大学青年教师基金资助(060203)
摘 要:利用信息增益函数对文档进行特征提取,根据特征在文档中出现的次数,将文档表示成为向量的形式。假设文档的特征之间是相互独立的,其特征和主题类别的联合概率分布为服从多项式分布。利用训练集中已标注的文档、学习特征和主题类别的联合概率分布参数,根据学习的结果,对测试集中未分类的文档进行分类。实验结果表明,分类具有较高的准确性。By using the function of information gain, the documents attributes are obtained. Depending on the times of an attribute occurrences in the documents, the document is represented as a vector consisting of 1 and 0. Supposing that the elements of the set of attributes are mutual conditional independent, and the probability distribution of the attributes between the categories is the multinomial distribution. Using the documents in the training set, the parameter of the multinomial distribution is learned. Based on the results of learning and bay sian theory, the documents in the test set is classified.
关 键 词:互联网 WEB 文本分类 多项式分布模型 数据挖掘
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15