检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贾西平[1,2] 彭宏[1,2] 郑启伦[1,2] 石时需[1,2]
机构地区:[1]华南理工大学计算机科学与工程学院,广州510640 [2]广东技术师范学院计算机科学学院,广州510665
出 处:《计算机科学》2008年第10期178-180,218,共4页Computer Science
基 金:广东省自然科学基金项目(07006474);广东省科技攻关项目(2007B010200044)
摘 要:现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。Existing models on document relationship analysis have a difficulty in learning document correlation from topic level. To overcome this difficulty, a topic-based probabilistic document correlation model (TPDC) was proposed. The model learns the topic structure of a document through the latent dirichlet allocation model, infers the posterior probability of a document by computing the posterior probability of its topics and topic similarity, and then constructs the document correlation model based on the document posterior probability. Experimental results show that the TPIX2 model outperforms the vector space model in retrieval precision and document compression. So the TPDC model is more competent for document retrieval tasks in application.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.224.202.121