基于类别特征向量表示的中文文本分类算法  被引量:11

Algorithm for Chinese textcategorization based on class feature vector representation

在线阅读下载全文

作  者:何建英[1] 陈蓉[1] 徐淼[1] 刘佳[1] 于中华[1] 

机构地区:[1]四川大学计算机学院,成都610064

出  处:《计算机应用研究》2008年第2期337-338,344,共3页Application Research of Computers

基  金:国家自然科学基金资助项目(60073046);高等学校博士学科点专项科研基金资助项目(20020610007);四川大学计算机学院青年基金资助项目

摘  要:采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。This paper used the approach to Chinese text categorization without word segmentation, expressing text features with bi-gram model. Compared with the classification models with word segmentation, the approach avoided complicated computation of word segmentation. To increase the accuracy of the approach, proposed an algorithm based on the class feature vector representation. And analyzed theoretically and verified experimentally the efficiency of the algorithm.

关 键 词:中文文本分类 向量空间模型 评价函数 特征提取 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象