检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:秦兵[1] 郑实福[1] 刘挺[1] 张刚[1] 李生[1]
机构地区:[1]哈尔滨工业大学信息检索组,哈尔滨150001
出 处:《微处理机》2002年第1期26-28,共3页Microprocessors
摘 要:提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。This paper presents a modified statistic Chinese web page classification algorithm.Similarity based method and Bayes model based method are the popular approaches for text classification.In this paper, we modified Bayes model method,then uses the probability likelihood ratio of each class to increase the separability of feature words vectors.In the following method:Similarity based method,Bayes model based method,modified Bayes model based method.The experiment shows that among these methods,the modified algorithm not only presents the maximum distance between classes,but also improves precision and recall.
关 键 词:可分性判据 贝叶斯方法 文本概率模型 中文网页分类 计算机网络
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145