概率潜在语义检索模型中中文索引技术的比较研究  

Comparing Indexing Strategies in Chinese Information Retrieval Based on PLSA

在线阅读下载全文

作  者:罗景[1] 涂新辉[1] 

机构地区:[1]武汉科技大学计算机学院,武汉430065

出  处:《计算机与数字工程》2007年第4期102-105,111,共5页Computer & Digital Engineering

摘  要:概率潜在语义检索模型使用统计的方法建立“文档—潜在语义—词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。Probabilistic Latent Semantic Analysis is a novel approach to automated document indexing which is based on a statistical latent class model for factor analysis of count data.This paper compares the performance of combinations of various Chinese indexing strategies(word,bi-gram,and extracted term) and retrieval models(PLSA and vector space).Experimental results indicate that accurate segmentation can improve the effectiveness of retrieval based on PLSA.

关 键 词:中文索引技术 信息检索 概率潜在语义分析 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象