词表的自动丰富——从元数据中提取关键词及其定位  被引量:40

Updating Thesaurus via Extracting Keywords from Metadata

在线阅读下载全文

作  者:王军[1] 

机构地区:[1]北京大学信息管理系 北京100871

出  处:《中文信息学报》2005年第6期36-43,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(70303002);国家社会科学基金资助项目(03BTQ001)

摘  要:词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。The appfication of thesauri in digital libraries is seriously constrained by the manual nature of current thesaurus maintenance mechanism which cannot keep up with the rapid evolvement of knowledge. This paper proposes a statistical method of extracting new terms from titles of metadata and settling them into the thesaurus. The settlement is based on the subject indexing coded in the metadata records. An experiment was conducted on the Chinese Classification and Thesaurus and a corpus of 5 thousands bibliographic data of computing domain. The successful result demonstrates that the techniques proposed are effective and can be applied to the corpus of large size and foreign language.

关 键 词:计算机应用 中文信息处理 词表 元数据 关键词提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象