基于标引经验和机器学习相结合的多层自动分类  被引量:19

Automatic Multi-layer Classification Method Based on Integration of Machine Learning and Indexing Experience

在线阅读下载全文

作  者:何琳[1] 侯汉清[1] 白振田[1] 张雪英[1] 

机构地区:[1]南京农业大学信息管理系,南京210095

出  处:《情报学报》2006年第6期725-729,共5页Journal of the China Society for Scientific and Technical Information

基  金:国家社会科学基金项目(02BTQ012)及南京农业大学青年科技创新基金项目(Y200204)的研究成果.

摘  要:由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词申对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。It is unsuitable to use machine learning method to automatically classify document due to the reason of characters of CLC, which has a great deal of classes and document distributed un-balanced. Method based on indexing experience try to use intereperahility between information retrieval languages to automatic classify documents, but this method also caused some problems actually. This paper wants to combine the advance of two methods, build a matrix composed by keywords, class number and values as the base of classification mapping. This method was proved useful by some tests.

关 键 词:中国图书馆分类法 分类矩阵 自动分类 自动标引 语料库 

分 类 号:G354.4[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象