基于交叉覆盖算法的中文文本分类  被引量:8

Chinese Text Categorization Based on Alternative Covering Algorithm

在线阅读下载全文

作  者:刘政怡[1] 龚建成[2] 吴建国[1] 

机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室 [2]安徽工程科技学院机械工程系

出  处:《计算机工程》2006年第19期183-184,共2页Computer Engineering

基  金:安徽省高校青年教师科研资助计划项目(2005JQ1038)

摘  要:基于向量空间模型的文本分类过程中遇到的最大问题就是以词为特征项的向量维数太大,需要进行特征选取,而交叉覆盖算法的输入集是n维欧式空间的点集,可以忽略维数的大小,从而最大程度上精确地表示文本,然后再进行分类,能够大大提高正确率。将交叉覆盖算法作为一种分类算法来进行中文文本分类,取得了不错的效果,在封闭测试中的准确率达到98.32%。During text categorization based on VSM, too large vector dimension becomes the most important problem, this vector regard word as feature selection vector. As the input of alternative covering algorithm is point sets distributed in the n-dimension space, it can ignore the size of dimension, express text in the most precision and improve precision of text categorization. This paper introduces alternative covering algorithm to categorize Chinese texts, good effects are obtained and exactness reaches 98.32% in close tests.

关 键 词:文本分类 交叉覆盖算法 中文信息处理 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象