检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张小平[1] 周雪忠[1] 黄厚宽[1] 冯奇[1] 陈世波[2]
机构地区:[1]北京交通大学计算机与信息技术学院,北京100044 [2]中国中医科学院广安门医院,北京100053
出 处:《模式识别与人工智能》2010年第1期72-76,共5页Pattern Recognition and Artificial Intelligence
基 金:国家973计划项目(No.2006CB504601);国家科技支撑计划项目(No.2007BA110B06-01);国家自然科学基金项目(No.90709006);北京市科学技术委员会科研攻关项目(No.D08050703020804)资助
摘 要:主题模型能提取隐含在文档中的主题,使文档可按主题进行归约、分类和检索,成为信息分类和检索领域的研究热点.针对LDA(Latent Dirichlet Allocation)主题模型不能自动确定主题数目的问题,提出一种结合词相似性与CRP(Chinese Restaurant Process)的隐主题模型,可自适应地动态更新主题内容,确定合理的主题数目.同时提出一种在动态更新主题数时超参数设置方法.在中医临床诊疗数据的实验中,获得领域专家解释性较好的分析结果.The topic model can extract the topics hided in documents to make the dimensions of documents reduced and the documents be classified and retrieved according to their topics. It is a research focus on information classification and retrieval fields. Aiming at the problem that the number of topics cannot be automatically determined in LDA topic model, a latent topic model is proposed by combining the similarity between words and Chinese restaurant process (CRP). It can adaptively update the contents and determine the rational number of topics. Meanwhile, a novel method of setting the hyperparameters during updating topics is put forward. The experimental results on traditional Chinese medicine (TCM) clinical dataset show the proposed model has good analysis results accepted by TCM expert.
关 键 词:主题模型 词相似性 Dirichlet分布
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40