与自然语言查询表述相关的词语分析  被引量:1

Word Analysis for Request Expressions in Nature Language Information Retrieval

在线阅读下载全文

作  者:熊文新[1] 

机构地区:[1]北京外国语大学中国外语教育研究中心,北京100089

出  处:《图书情报工作》2012年第17期115-121,共7页Library and Information Service

基  金:国家社会科学基金项目"服务信息检索的自然语言"(项目编号:11BYY051);教育部新世纪优秀人才支持计划(项目编号:NCET-11-0591)研究成果之一

摘  要:考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。Based on a small query corpus, the paper conducts statistical analysis on the request expression related to different description level. Through the measures of term frequency (TF) and the document freqaency (DF), distribution of high frequent words in diffcrent corpora, the words in request expressions are classified as general stop words, retrieval-specific words and information content words served for special information need. With the differentiation of function words and information content words, the information retrieval system can achieve an efficient and effective output.

关 键 词:查询语句 检索项 语料库 词语分布 信息检索 

分 类 号:G254[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象