基于自动标引的自然语言检索方法研究  被引量:1

Retrieval Methods of Natural Language Based on Automatic Indexing

在线阅读下载全文

作  者:王丹[1,2] 杨晓蓉[1,2] 马健[1,2] 

机构地区:[1]中国农业科学院农业信息研究所 [2]农业部农业信息服务技术重点实验室

出  处:《图书馆杂志》2016年第6期66-72,共7页Library Journal

摘  要:自从自然语言进入计算机检索系统以来,就因其不受不同职业、不同知识背景、不同检索经验的影响等特点受到终端用户的青睐。由于中文文献的标题是中文文献内容的集中体现,它反映了文献的中心思想。本文介绍的自然语言检索方法,限定在文献标题层面进行主题标引。该方法的基本思想是用自动标引方法分别对检索系统中数据库的文献标题和用于检索的自然语言进行自动赋词标引,对给定的关键词进行概念控制,即词义转换,形成最终标引词;然后,用向量空间模型对数据库的索引数据进行"或"运算检索,形成命中文献集合B,对B集合中的每篇文献标题再进行自动标引,形成的标引词与用于检索的自然语言标引词进行相似度计算,根据B集合中的每篇文献的相似度进行排序,把最符合检索要求的文献最先呈现给用户。此方法是一种简便、实用的自然语言检索方法。Since natural language was introduced to the computer retrieval system, it has been favored by users, due to its freedom from restrictions of professional experience, knowledge background, and retrieval experience. As the title of the Chinese literature greatly refl ects its content, it embodies the central idea. Retrieval methods of natural language described in this article only refers to subject indexing in literature title. The basic idea of this method is automatically indexing the literature titles and natural language that is used in retrieval. To control the defi nition of a given keyword, namely, meaning transformation, it will produce the fi nal indexing words. Then, using the vector space model, an "or" operation wil be conducted on the index data, resulting in a document set B. Another automatic indexing will be performed on each document title in set B. The indexing terms thus produced will be used for a similarity calculation with the natural language indexing terms. The documents in set B will then be arranged as per the level of similarity, and the ones that meet the best retrieval requirements will be presented to users. This method is a simple and practical method of natural language retrieval.

关 键 词:转换、自动赋予标引词的主题词、同义词、近义词、相关词和网罗词 有基于字符串匹配的分词方法 基于理解的分词方法和基于统计的分词方法.基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与词典中的词条进行匹配 匹配成功则给出一个标引词.按照扫描方向的不同 可分为正向匹配和逆向匹配 按照不同长度优先匹配的不 自动标引 自然语言检索 方法 

分 类 号:G354[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象