文本分类技术探究  被引量:1

在线阅读下载全文

作  者:吴波[1] 朱昌杰[1] 任逸卿[1] 

机构地区:[1]淮北师范大学计算机科学与技术学院,安徽淮北235000

出  处:《宿州学院学报》2012年第5期19-23,共5页Journal of Suzhou University

基  金:安徽省高等学校省级自然科学重点项目"数据挖掘与知识发现在乳腺癌辅助诊断和治疗中的研究"(KJ2009A090);安徽省高等学校省级自然科学重点项目"基于数据挖掘技术的癌症患者生存期与癌症复发预测的共性研究"(KJ2010A298)

摘  要:首先阐述了文本分类的现状和定义,概述了文本分类的基本流程,然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示的概念和常用模型之后,重点讨论了信息增益、文档频率、期望交叉熵、互信息和chi统计五种用于特征降维的特征选择方法,而后描述了Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)和决策树分类算法的基本指导思想,并从分类性能及其各自复杂度等方面分析比较了这几种算法的优缺点,最后评述了查全率、查准率和F-Measure三种常用的分类器性能评价指标。

关 键 词:文本分类 文本预处理 分词 特征选择 分类算法 

分 类 号:R289[医药卫生—方剂学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象