一种基于链接聚类的查询扩展算法  被引量:2

A Linkage Clustering Based Query Expansion Algorithm

在线阅读下载全文

作  者:李珀瀚[1] 何震瀛[1] 向河林[1] 

机构地区:[1]复旦大学计算机科学技术学院,上海201203

出  处:《计算机研究与发展》2011年第S3期197-204,共8页Journal of Computer Research and Development

基  金:国家科技重大专项(2010ZX01042-003-004);国家自然科学重点基金项目(61033010);国家自然科学基金项目(61073001);国家"八六三"高技术研究发展计划基金项目(2009AA062803);上海市科委现代服务业专项基金项目(10dz1511000)

摘  要:潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大规模数据集上的应用.另一方面,在关系数据库中,数据对象通过多种类型的链接连接到一起.这些链接中蕴藏了丰富的语义信息.数据对象之间的相似性也可以通过这些链接体现出来.针对这个特点,提出了一种基于链接聚类的查询算法:利用数据对象之间的链接对数据对象进行聚类,用聚类代替文档来进行LSA处理,有效地减少处理文档的个数;在检索的过程中,寻找与关键字序列相似度最接近的簇,然后将簇内的文档返回给用户.实验结果表明,所提出的方法能够充分利用数据对象之间的链接,聚类效果明显;利用聚类后进行LSA处理,能够成倍地提高空间和时间开销,对精确度有提高作用.潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大规模数据集上的应用.另一方面,在关系数据库中,数据对象通过多种类型的链接连接到一起.这些链接中蕴藏了丰富的语义信息.数据对象之间的相似性也可以通过这些链接体现出来.针对这个特点,提出了一种基于链接聚类的查询算法:利用数据对象之间的链接对数据对象进行聚类,用聚类代替文档来进行LSA处理,有效地减少处理文档的个数;在检索的过程中,寻找与关键字序列相似度最接近的簇,然后将簇内的文档返回给用户.实验结果表明,所提出的方法能够充分利用数据对象之间的链接,聚类效果明显;利用聚类后进行LSA处理,能够成倍地提高空间和时间开销,对精确度有提高作用.

关 键 词:潜在语义分析 基于链接的聚类算法 查询扩展 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象