检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程与设计》2006年第24期4746-4748,共3页Computer Engineering and Design
摘 要:文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、互信息法、CHI统计、信息增益法等,然而上述方法对于词条的权重未作考虑,引进了权重的表征方式,给出了改进方法。由实验证明了通过以上方面的改进,文本分类的正确率得到了提高。Two important factors in text classification are discussed-algorithm and feature abstraction. The practical Bayesian algorithm has an assumption of strong independence of different properties and a modified way on polynomial is introduced. In Feature abstraction, different ways of abstracting features are discussed and a modified CHI based on word weight is introduced. At last the experiments show seen that correct rate of text classification is improved.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31