检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王军[1]
出 处:《中文信息学报》2005年第6期36-43,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(70303002);国家社会科学基金资助项目(03BTQ001)
摘 要:词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。The appfication of thesauri in digital libraries is seriously constrained by the manual nature of current thesaurus maintenance mechanism which cannot keep up with the rapid evolvement of knowledge. This paper proposes a statistical method of extracting new terms from titles of metadata and settling them into the thesaurus. The settlement is based on the subject indexing coded in the metadata records. An experiment was conducted on the Chinese Classification and Thesaurus and a corpus of 5 thousands bibliographic data of computing domain. The successful result demonstrates that the techniques proposed are effective and can be applied to the corpus of large size and foreign language.
关 键 词:计算机应用 中文信息处理 词表 元数据 关键词提取
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117