基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例  被引量:7

Research of Journals Manuscript Categorization Based on KNN Algorithm

在线阅读下载全文

作  者:李湘东[1,2] 徐朋[1] 黄莉[3] 沈祥兴[1] 

机构地区:[1]武汉大学信息管理学院 [2]武汉大学信息资源研究中心 [3]武汉大学图书馆,武汉430072

出  处:《图书情报知识》2010年第4期71-76,共6页Documentation,Information & Knowledge

基  金:教育部"留学回国人员科研启动基金"项目(教外留司[2009]1341号)的研究成果之一

摘  要:本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen-shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。Looking the regular subject columns of journals as categories, this work improves KNN algorithm so that it is suitable to categorize manuscript to proper columns to further review with expert in the field. Based on the feature of regular columns of academic journals, this work explains a way how to collect dataset from a journals as corpus; uses Jensen-Shannon Divergence to calculate similarity between documents which is constituted from title, abstract and author keywords; dynamically determine k value; defines evaluation method how to use published papers in the regular subject columns in past years. The results demonstrate a significant F1 score of 77.25%.

关 键 词:KNN算法 自动归类 栏目 Jensen—Shannon散度 动态k值 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象