基于权值调整的文本分类改进方法  被引量:17

Improved text classification methods based on weighted adjustments

在线阅读下载全文

作  者:鲁明羽[1] 李凡[1] 庞淑英 陆玉昌[1] 周立柱[1] 

机构地区:[1]清华大学计算机科学与技术系

出  处:《清华大学学报(自然科学版)》2003年第4期513-515,520,共4页Journal of Tsinghua University(Science and Technology)

基  金:国家"九七三"重点基础研究项目 ( G19980 3 0 414 )

摘  要:文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。Text classification is the key to text mining which is used extensively in traditional information searches, web information queries and web mining. A text classification method was developed using a weighted adjustment measure to improve the vector space model (VSM) and the naive Bayesian classifier (NBC). The EM algorithm was then used for non tutor Bayesian learning and a Chinese/English text classification system was developed. Three sets of test results show that the weighted adjustment measure using scoring functions can improve the precision of text classification models such as VSM and NBC with the effect increasing with increasing size of the training text set. The maximum NBC precision is 86%.

关 键 词:文本分类 文本挖掘 权值调整 向量空间法 朴素Bayes分类器 情报检索 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象