检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国人民大学数据工程与知识工程教育部重点实验室,北京100872 [2]中国人民大学信息学院,北京100872
出 处:《计算机科学与探索》2010年第2期124-133,共10页Journal of Frontiers of Computer Science and Technology
基 金:国家高技术研究发展计划(863)No.2009AA01Z149;中国人民大学和惠普中国实验室联合研究项目;北京市教委和中国人民大学产学研合作项目;中国人民大学研究生科学研究基金项目No.08XNG040~~
摘 要:随着XML在数据交换和数据存储中的普遍应用,基于XML文档的信息检索研究逐渐成为新的研究热点。XML文档本身含有的结构信息可以使其检索精度得到很大提高,但相应地,XML检索中使用的较复杂的评分模型(如组合语言模型和推理网络的结构化评分模型)和较细的返回结果粒度(由文档转变为元素或者段落),也使得传统的信息检索由I/O密集型应用转变为CPU密集型应用。针对上述应用特点的转变,提出了一种新的检索处理框架,即保存数据的两种索引形式,根据系统的状态动态地调整任务调度,平衡I/O和CPU的处理,以达到减少单个查询的平均响应时间的目的。The widespread application of XML (extensive makeup language) makes it a new research focused on the area of information retrieval. Although the precision of XML information retrieval can be improved greatly because of the internal structure in XML documents, the finer retrieval granularity (i.e. elements or passages instead of documents) and more complex scoring and ranking models (e.g. the language model combined with the hierarchical inference network) convert traditional information retrieval applications which are I/O intensive into CPU-bound applications. In view of such a transformation, a new query processing framework of XML retrieval is proposed, which can dynamically balance I/O and CPU workloads to minimize average response time per query by creating two indexes for XML corpus and scheduling subtasks to use different indexes for queries evaluation according to the current state of the system.
关 键 词:可扩展标记语言 结构化检索 输入/输出 语言模型
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43