应用特征聚合进行中文文本分类的改进KNN算法  被引量:60

An Improved KNN Algorithm Applied Term Feature Combination Technology for Chinese Textual Classification

在线阅读下载全文

作  者:张晓辉[1] 李莹[1] 王华勇[1] 赵宏[1] 

机构地区:[1]东北大学软件中心,辽宁沈阳110004

出  处:《东北大学学报(自然科学版)》2003年第3期229-232,共4页Journal of Northeastern University(Natural Science)

基  金:国家"八六三"高技术计划项目 ( 863 3 0 6 ZD0 2 0 2 6)

摘  要:针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 。A feature combination method was presented to improve the KNN algorithm. Each term's CHI value was calculated. Multiple discriminating words with same contribution on classification were combined into one pattern. The pattern was used as the basic feature dimension. The algorithm increases the discriminating words' contribution, enhances the effect of the related terms, and decreases the dimensions of the text vector. Compared with the traditional algorithm the algorithm increases recall and precision rate greatly.

关 键 词:改进KNN算法 中文文本分类 分类贡献模式 特征聚合 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] G254.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象