基于K-最近距离的自动文本分类的研究  被引量:13

Automatic Text Categorization Based on K-Nearest Neighbor

在线阅读下载全文

作  者:孙健[1] 王伟[1] 钟义信[1] 

机构地区:[1]北京邮电大学信息工程学院,北京100876

出  处:《北京邮电大学学报》2001年第1期42-46,共5页Journal of Beijing University of Posts and Telecommunications

基  金:国家自然科学基金!资助项目 ( 69982 0 0 1 )

摘  要:提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文本的测试结果表明 。A method that integrates language information and statistical information from the training corpus is put forward. The weight of these characters is computed from three parameters: word frequency, centralized degree, decentralized degree. After training, we get the vector space model of the text categorization. The classification of the input text is decided by K-nearest-neighbor. The result shows that the method improves the accuracy of the categorization.

关 键 词:自然语言理解 向量空间模型 K-最近距离 自动文本分类 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象