基于K-最近距离的自动文本分类的研究被引量：13

Automatic Text Categorization Based on K-Nearest Neighbor

出　　处：《北京邮电大学学报》2001年第1期42-46,共5页Journal of Beijing University of Posts and Telecommunications

基　　金：国家自然科学基金!资助项目 ( 69982 0 0 1 )

摘　　要：提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文本的测试结果表明。A method that integrates language information and statistical information from the training corpus is put forward. The weight of these characters is computed from three parameters: word frequency, centralized degree, decentralized degree. After training, we get the vector space model of the text categorization. The classification of the input text is decided by K-nearest-neighbor. The result shows that the method improves the accuracy of the categorization.

关键词：自然语言理解向量空间模型 K-最近距离自动文本分类

分类号：TP18[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于K-最近距离的自动文本分类的研究被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于K-最近距离的自动文本分类的研究 被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于K-最近距离的自动文本分类的研究被引量：13