一种基于PLSA的高效检索方法  被引量:3

An effective retrieval method based on probabilistic latent semantic analysis

在线阅读下载全文

作  者:李胜[1] 胡和平[2] 

机构地区:[1]中南财经政法大学信息与安全工程学院,湖北武汉430073 [2]华中科技大学计算机科学与技术学院,湖北武汉430074

出  处:《华中科技大学学报(自然科学版)》2010年第11期48-50,75,共4页Journal of Huazhong University of Science and Technology(Natural Science Edition)

基  金:国家自然科学基金资助项目(10876012)

摘  要:为克服概率潜在语义索引在存储效率和查询速度方面的不足,引入概率潜在语义词典(PLSD)概念,建立词汇之间的关联矩阵代替词汇-文档矩阵.提出一种文档分值计算方法,以及词典中每个词汇的概率计算方法,用以获取相关的查询词汇,从而生成新的查询.实验表明:PLSD的引入消除了概率潜在语义分析对文档的依赖,通过调整文档阈值和词汇筛选等方法,可以在保证查准率的前提下,大幅度减少检索系统占用的存储空间.To overcome the limitations of PLSI (probabilistic latent semantic index) in storage efficiency and query speed, the probabilistic latent semantic dictionary (PLSD) is presented. It is a matrix containing the relationships between terms instead of relationships between terms and documents. A document score calculation method and a term probability calculation method are provided to extract query terms from documents and then a new query could be generated. The time complexity of PLSD query is demonstrated much smaller than that of PLSI. The experimental result is proven that this melhod could completely eliminate document dependence of the probabilistic latent semantic analysis. By means of adjusting document threshold and pruning such unused data, PLSD could significantly reduce the storage space of retrieval system and improve query speed under the premise of ensuring retrieval precision.

关 键 词:信息检索 概率潜在语义分析 词频索引 查询扩展 概率潜在语义词典 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象