面向特定划分的主题模型的设计与实现  被引量:1

Design and Development of Partitional Topic Model

在线阅读下载全文

作  者:周凯文 杨智慧 马会心 何震瀛[1] 荆一楠[1] 王晓阳[1] ZHOU Kaiwen;YANG Zhihui;MA Huixin;HE Zhenying;JING Yinan;WANG X.Sean(School of Computer Science,Fudan University,Shanghai 201203,China)

机构地区:[1]复旦大学计算机科学技术学院,上海201203

出  处:《计算机科学与探索》2018年第7期1036-1046,共11页Journal of Frontiers of Computer Science and Technology

基  金:国家自然科学基金No.61370080;上海市科技创新行动计划No.16DZ1100200~~

摘  要:利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型Db LDA(LDA over text database)。Db LDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于Db LDA模型复杂,使用部分收缩变分贝叶斯法对Db LDA进行模型推断,加快了模型训练速度。在新闻数据库上对Db LDA及LDA进行了训练和测试,实验结果验证了Db LDA拥有更好的模型效果。It.s prevalent to use topic model to analyze documents in data mining at present.LDA(latent Dirichlet allocation),as a simple topic model,has received much attention.However,LDA assumes the generating process of each document to be independent,which neglects the connection between documents.By modeling the connection between documents,this paper develops a new topic model Db LDA(LDA over text database).Db LDA explores the partitional structure of text databases(e.g.,time,location),utilizes the commonalities inside each subset and thus is more expressive than original LDA.Due to the complexity of Db LDA,this paper uses partial collapsed variational Bayesian method to perform the model inference task,which has a fast training speed.For experiments,this paper trains Db LDA and LDA on news datasets.The experimental results justify that Db LDA yields a better performance than LDA.

关 键 词:主题模型 数据挖掘 文本数据库 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象