概率潜在语义检索模型中中文索引技术的比较研究

Comparing Indexing Strategies in Chinese Information Retrieval Based on PLSA

出　　处：《计算机与数字工程》2007年第4期102-105,111,共5页Computer & Digital Engineering

摘　　要：概率潜在语义检索模型使用统计的方法建立“文档—潜在语义—词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。Probabilistic Latent Semantic Analysis is a novel approach to automated document indexing which is based on a statistical latent class model for factor analysis of count data.This paper compares the performance of combinations of various Chinese indexing strategies(word,bi-gram,and extracted term) and retrieval models(PLSA and vector space).Experimental results indicate that accurate segmentation can improve the effectiveness of retrieval based on PLSA.

关键词：中文索引技术信息检索概率潜在语义分析

分类号：TP391.3[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

概率潜在语义检索模型中中文索引技术的比较研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

概率潜在语义检索模型中中文索引技术的比较研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索