信息检索需求描述中的词语区域凸显  

Salience Scheme for Words in Different Parts of Information Request

在线阅读下载全文

作  者:熊文新[1] 宋柔[2] 

机构地区:[1]北京外国语大学中国外语教育研究中心,北京100089 [2]北京语言大学语言信息处理研究所,北京100083

出  处:《计算机科学》2008年第2期181-184,共4页Computer Science

基  金:国家自然科学基金项目(60272055);国家863项目(2001AA114111);教育部科学技术研究重点资助项目(00128)

摘  要:根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。Based on the analysis of both the form and contents of queries in information retrieval contests, words in queries are partitioned into different descriptive sections and topic chunks by using regular expression matching. Different weighting schemes are applied to words in different descriptive parts. It is shown that a scheme combining the salience of topic words in different sections with TF × IDF outperforms the mere use of TF× IDF. The combination of the methods results in an MRR increase of 26.67%.

关 键 词:信息检索 主题词语 凸显 描述域 功能块 

分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论] G354.4[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象