基于知识库的网页自动标引和自动分类系统的设计  被引量:38

Design of Web Page Auto-indexing & Auto-classification System Based on the Knowledge Database

在线阅读下载全文

作  者:侯汉清[1] 薛鹏军[1] 

机构地区:[1]南京农业大学信息管理系,南京210095

出  处:《大学图书馆学报》2004年第1期50-55,64,共7页Journal of Academic Libraries

基  金:国家社科基金项目"基于知识库的中文信息自动分类和自动标引"(02BTQ012)的研究成果之一。

摘  要:针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。Based on the data analysis of web pages, the authors present the indexing scheme of Chinese web pages and outline an experimental web page auto-indexing and classification system based on an expert knowledge database which consists the Chinese Library Classification and several thesaurus and keywords lists. The system adopts method of word frequency weighting and measure of word similarity to fulfill the indexing and classification of Chinese web pages. Finally the paper also discusses the technology of new words identification.

关 键 词:知识库 网页标引 自动标引 自动分类系统 概念语义网络 

分 类 号:G254.361[文化科学—图书馆学] G250.73

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象