检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京外国语大学中国外语教育研究中心,北京100089 [2]北京语言大学语言信息处理研究所,北京100083
出 处:《计算机科学》2008年第2期181-184,共4页Computer Science
基 金:国家自然科学基金项目(60272055);国家863项目(2001AA114111);教育部科学技术研究重点资助项目(00128)
摘 要:根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。Based on the analysis of both the form and contents of queries in information retrieval contests, words in queries are partitioned into different descriptive sections and topic chunks by using regular expression matching. Different weighting schemes are applied to words in different descriptive parts. It is shown that a scheme combining the salience of topic words in different sections with TF × IDF outperforms the mere use of TF× IDF. The combination of the methods results in an MRR increase of 26.67%.
分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论] G354.4[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229