检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:丁凡[1] 王斌[1] 白硕[1] 刘宜轩[1] 李亚楠[1]
机构地区:[1]中国科学院计算技术研究所
出 处:《中文信息学报》2008年第4期66-74,共9页Journal of Chinese Information Processing
基 金:国家973重点基础研究资助项目(2004CB318109);国家自然科学基金资助项目(60603094);北京市科技计划(D0106008040291)
摘 要:利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法:一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。To relax the term independence assumption, term dependency is introduced and it has improved retrieval precision dramatically. There are two kinds of terra dependencies: one is defined by terra proximity, and the other is defined by syntactic dependencies. In: this paper, we take a comparative study to re-examine these two kinds of term dependencies in dependence language model framework and presents a smooth-based dependence language model. We studied the effectiveness of syntactic dependencies in query representation and document representation respectively. The experimental results on TREC collections show: 1) Syntactic dependencies get a better result than term proximity in document representation. 2) In: query representation, concept-based part syntactic dependencies are more effective than other syntactic dependencies.
关 键 词:计算机应用 中文信息处理 信息检索 词项依存 句法分析 词项近邻
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28