检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贾西平[1] 彭宏[1] 郑启伦[1] 石时需[1] 江焯林[1]
机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510640
出 处:《华南理工大学学报(自然科学版)》2008年第9期37-42,共6页Journal of South China University of Technology(Natural Science Edition)
基 金:广东省自然科学基金资助项目(07006474);广东省科技攻关项目(2007B010200044)
摘 要:现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.As most existing document retrieval models are inefficient in semantic learning and are unable to learn the document similarity in topic level, a topic-based document retrieval model (TDRM) is p TDRM provides a common topic space for all documents, represents each document as a vector in the common space, defines the document similarity as the cosine of the angle between document vectors, and uses Latent Dirichlet Allocation to learn the topic distribution of each document. Experimental results show that, as compared with the document similarity model based on the TextTiling and the optimal matching of bipartite graph, TDRM is of higher average precision and recall in the retrieval of similar document, with its harmonic mean of average precision and recall being 44% greater than that of the reference model.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.158