基于主题的文档检索模型  被引量:4

Topic-Based Document Retrieval Model

在线阅读下载全文

作  者:贾西平[1] 彭宏[1] 郑启伦[1] 石时需[1] 江焯林[1] 

机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510640

出  处:《华南理工大学学报(自然科学版)》2008年第9期37-42,共6页Journal of South China University of Technology(Natural Science Edition)

基  金:广东省自然科学基金资助项目(07006474);广东省科技攻关项目(2007B010200044)

摘  要:现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.As most existing document retrieval models are inefficient in semantic learning and are unable to learn the document similarity in topic level, a topic-based document retrieval model (TDRM) is p TDRM provides a common topic space for all documents, represents each document as a vector in the common space, defines the document similarity as the cosine of the angle between document vectors, and uses Latent Dirichlet Allocation to learn the topic distribution of each document. Experimental results show that, as compared with the document similarity model based on the TextTiling and the optimal matching of bipartite graph, TDRM is of higher average precision and recall in the retrieval of similar document, with its harmonic mean of average precision and recall being 44% greater than that of the reference model.

关 键 词:主题 文档相似性 文档检索 信息检索 数据挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象