一种融合词语位置特征的Lucene相似度评分算法  被引量:8

Scoring algorithm of similarity based on terms' position feature combination for Lucene

在线阅读下载全文

作  者:白培发[1] 王成良[1,2] 徐玲[2] 

机构地区:[1]重庆大学计算机学院,重庆400030 [2]重庆大学软件学院,重庆400030

出  处:《计算机工程与应用》2014年第2期129-132,161,共5页Computer Engineering and Applications

基  金:中央高校基本科研业务费科研专项(No.CDJZR11090001)

摘  要:相似度评分算法是Lucene引擎中的核心部分之一。对Lucene内部的相似度评分算法进行研究分析后,针对Lucene只关心查询词出现的频率,而不关心它们所在的位置这一缺陷提出了一种改进的算法。改进的算法将词语位置关系特征融合到Lucene原始相似度评分算法中。在TREC数据集上的实验结果表明:改进后的算法与Lucene原始算法相比,在MAP和P@n指标上都有一定程度的提高。The scoring algorithm of similarity is one of the core parts in Lucene. After the analysing and researching on the default scoring algorithm of Lucene similarity, this paper proposes an improved algorithm aimed at the deficiency of the Lucene' s default algorithm which only considers the frequencies rather than the position of query terms occurrence. The improved algorithm combines the feature of the terms' position relationship with Lucene' s default scoring algorithm of similarity. The experiment on the TREC dataset shows that, the improved algorithm increases the value of evaluation metric MAP and P@n to a certain extent.

关 键 词:LUCENE 相似度 全文检索 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象