基于概率潜在语义分析的中文信息检索  被引量:11

Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis

在线阅读下载全文

作  者:罗景[1] 涂新辉[1] 

机构地区:[1]武汉科技大学计算机学院,武汉430065

出  处:《计算机工程》2008年第2期199-201,共3页Computer Engineering

摘  要:传统的信息检索模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象,对召回率和准确率有不利的影响。概率潜在语义模型使用统计的方法建立"文档-潜在语义-词"之间概率分布关系并利用这种关系进行检索。该文将概率潜在语义模型用于中文信息检索,实验结果表明,概率潜在语义模型相对于传统的向量空间模型能够显著地提高检索的平均精度。In traditional information retrieval models, index word is regarded as independent unit. However, there are many synonyms and polysemy in natural language, and the existence of them deteriorate the recall and precision respectively. Probabilistic latent semantic analysis is a novel approach to automated document indexing which is based on a statistical latent class model for factor analysis of count data. This paper applies the approach to Chinese information retrieval task. Experimental results indicate that the model based on probabilistic latent semantic analysis hss a prominent higher effectiveness than vector space model.

关 键 词:概率潜在语义分析 中文信息检索 索引技术 关键词抽取 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象