检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:熊文新[1]
机构地区:[1]北京外国语大学中国外语教育研究中心,北京100089
出 处:《图书情报工作》2012年第17期115-121,共7页Library and Information Service
基 金:国家社会科学基金项目"服务信息检索的自然语言"(项目编号:11BYY051);教育部新世纪优秀人才支持计划(项目编号:NCET-11-0591)研究成果之一
摘 要:考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。Based on a small query corpus, the paper conducts statistical analysis on the request expression related to different description level. Through the measures of term frequency (TF) and the document freqaency (DF), distribution of high frequent words in diffcrent corpora, the words in request expressions are classified as general stop words, retrieval-specific words and information content words served for special information need. With the differentiation of function words and information content words, the information retrieval system can achieve an efficient and effective output.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15