检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:鲁明羽[1] 李凡[1] 庞淑英 陆玉昌[1] 周立柱[1]
机构地区:[1]清华大学计算机科学与技术系
出 处:《清华大学学报(自然科学版)》2003年第4期513-515,520,共4页Journal of Tsinghua University(Science and Technology)
基 金:国家"九七三"重点基础研究项目 ( G19980 3 0 414 )
摘 要:文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。Text classification is the key to text mining which is used extensively in traditional information searches, web information queries and web mining. A text classification method was developed using a weighted adjustment measure to improve the vector space model (VSM) and the naive Bayesian classifier (NBC). The EM algorithm was then used for non tutor Bayesian learning and a Chinese/English text classification system was developed. Three sets of test results show that the weighted adjustment measure using scoring functions can improve the precision of text classification models such as VSM and NBC with the effect increasing with increasing size of the training text set. The maximum NBC precision is 86%.
关 键 词:文本分类 文本挖掘 权值调整 向量空间法 朴素Bayes分类器 情报检索
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145