基于矩阵加权关联模式的印尼中跨语言信息检索模型  被引量:6

Cross Language Information Retrieval Model Based on Matrix-weighted Association Patterns Mining

在线阅读下载全文

作  者:黄名选[1,2] 

机构地区:[1]广西跨境电商智能信息处理重点实验室培育基地(广西财经学院),南宁530003 [2]广西财经学院计算机系,南宁530003

出  处:《数据分析与知识发现》2017年第1期26-36,共11页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金项目"面向东盟国家语言的基于完全加权正负模式挖掘的跨语言查询扩展研究"(项目编号:61262028);广西财经学院信息与统计学院开放性课题"基于矩阵加权关联模式挖掘的越汉英跨语言信息检索研究"(项目编号:2015XK01);广西财经学院2016年度应用统计硕士专业学位点学术研究项目"基于完全加权关联模式挖掘的中英跨语言伪相关反馈扩展研究"(项目编号:2016TJYB05)的研究成果之一

摘  要:【目的】针对跨语言信息检索存在的查询漂移问题,提出一种融合用户点击下载行为与矩阵加权关联模式挖掘的印尼中跨语言信息检索模型。【方法】将矩阵加权关联模式挖掘、查询扩展以及用户点击下载行为集成应用到印尼中跨语言信息检索模型,给出模型实现的关键技术,即面向跨语言信息检索的矩阵加权关联模式挖掘算法、跨语言查询扩展模型以及印尼中跨语言信息检索算法。【结果】在NTCIR-5 CLIR数据集上的实验结果表明,该检索模型的R_prec、p@10和p@20值均达到单语言检索基准的60%以上,比跨语言检索基准提高37%以上,比现有基于伪相关反馈的跨语言检索算法提高28%以上。【局限】该模型实验在基于向量空间模型的跨语言检索系统中进行,需要探讨和研究在实际搜索引擎中的具体应用。【结论】该模型能有效地减少跨语言检索中的查询漂移问题,提高和改善印尼中跨语言检索性能,对长查询的检索效果更好,有较好的实际应用价值。[Objective] The purpose of this paper is to solve the query drift issue facing cross language information retrieval. It proposes a new model to retrieve Chinese documents with Indonesian queries. [Methods] The new model integrated the algorithms of matrix-weighted association patterns mining, query expansion, as well as user click-download behaviors. [Results] The R_prec, p@10 and p@20 values of the proposed model were higher than the 60% benchmark of the monolingual retrieval on the CLIR NTC1R-5 data set. These results were 37% higher than cross language retrieval baseline and 28% higher than the existing algorithms based on pseudo relevance feedback. [Limitations] The proposed model was only examined in the cross language retrieval system built with the vector space model, which needs to be done with the real world search engines. [Conclusions] The proposed model could effectively reduce query drift in cross language retrieval, and retrieve more relevant Chinese documents with Indonesian long queries.

关 键 词:点击行为 关联模式挖掘 印尼中跨语言检索模型 跨语言信息检索 矩阵加权关联规则 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象