基于检索结果聚类的XML伪相关文档查找  被引量:1

Finding XML Pseudo-relevance Document Based on Search Results Clustering

在线阅读下载全文

作  者:钟敏娟[1,2] 万常选[1,2] 刘德喜[1,2] 廖述梅[1,2] 

机构地区:[1]江西财经大学信息管理学院,南昌330013 [2]江西财经大学数据与知识工程江西省高校重点实验室,南昌330013

出  处:《计算机科学》2013年第10期172-177,共6页Computer Science

基  金:国家自然基金项目(61173146;61262035;60763001);国家社会科学基金(12CTQ042)资助

摘  要:传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型。相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档。Recently study shows that traditional pseudo-relevance feedback may bring topic drift. Therefore, to avoid topic drift effectively,it is essential to identify relevant documents and to form the pseudo relevant documents to user's query. In this paper, based on clustering XML search results, a method was proposed to find good feedback documents. Firstly, a cluster-label extraction method based on equalizing weights was introduced, by fully considering the content and structure features in XML documents. Secondly,a two-stage ranking strategy was presented,as the candidate clus-ter ranking model and document ranking model. Finally, experimental data shows that compared to original retrieving method,the ranking models obtain better performance and findmore relevant XML documents.

关 键 词:信息检索 XML伪相关反馈 XML检索结果聚类 簇标签 排序模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象