检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:韩中元[1] 李生[1] 齐浩亮[2] 杨沐昀[1]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001 [2]黑龙江工程学院计算机科学与技术系,黑龙江哈尔滨150050
出 处:《中文信息学报》2011年第1期66-70,共5页Journal of Chinese Information Processing
基 金:国家自然科学基金重点资助项目(60736044);国家自然科学基金面上资助项目(60873105);黑龙江省教育厅科学技术研究项目(11541287);哈尔滨市科技局青年创新人才项目(2009RFQXG213)
摘 要:面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。The data sparseness is a non-trivial issue for language model based information retrieval methods.The paper proposes a Neighbourhood Language Model to alleviate this issue by employing the neighbour information of a document as a smoothing to the word distribution.Tested on DOE and WSJ proportion of TREC data,the results show that the Neighbourhood Language Model can improve the information retrieval performance.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.142.97.186