检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周凯文 杨智慧 马会心 何震瀛[1] 荆一楠[1] 王晓阳[1] ZHOU Kaiwen;YANG Zhihui;MA Huixin;HE Zhenying;JING Yinan;WANG X.Sean(School of Computer Science,Fudan University,Shanghai 201203,China)
机构地区:[1]复旦大学计算机科学技术学院,上海201203
出 处:《计算机科学与探索》2018年第7期1036-1046,共11页Journal of Frontiers of Computer Science and Technology
基 金:国家自然科学基金No.61370080;上海市科技创新行动计划No.16DZ1100200~~
摘 要:利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型Db LDA(LDA over text database)。Db LDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于Db LDA模型复杂,使用部分收缩变分贝叶斯法对Db LDA进行模型推断,加快了模型训练速度。在新闻数据库上对Db LDA及LDA进行了训练和测试,实验结果验证了Db LDA拥有更好的模型效果。It.s prevalent to use topic model to analyze documents in data mining at present.LDA(latent Dirichlet allocation),as a simple topic model,has received much attention.However,LDA assumes the generating process of each document to be independent,which neglects the connection between documents.By modeling the connection between documents,this paper develops a new topic model Db LDA(LDA over text database).Db LDA explores the partitional structure of text databases(e.g.,time,location),utilizes the commonalities inside each subset and thus is more expressive than original LDA.Due to the complexity of Db LDA,this paper uses partial collapsed variational Bayesian method to perform the model inference task,which has a fast training speed.For experiments,this paper trains Db LDA and LDA on news datasets.The experimental results justify that Db LDA yields a better performance than LDA.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38