基于快速置信传播算法的并行主题建模方法研究  被引量:1

Parallel Topic Modeling Techniques Based on Fast Belief Propagation

在线阅读下载全文

作  者:高恩婷[1] 顾一清[2] 严建峰[2] 

机构地区:[1]苏州科技学院电子信息工程学院,江苏苏州215011 [2]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《南通大学学报(自然科学版)》2013年第1期1-8,共8页Journal of Nantong University(Natural Science Edition) 

基  金:国家自然科学基金项目(61003259;61272449)

摘  要:基于OpenMP技术提出并行置信传播算法,在多核服务器上通过共享内存的方式快速推断潜在狄利克雷分布(LDA)主题模型的参数,建立文本中不同主题与文本表面单词之间的联系.利用Enron和Wikipedia数据集,通过3组实验对比了传统吉布斯算法和并行置信传播算法的运行效果.结果表明,并行置信传播算法能够快速推断LDA模型参数,高效处理大规模数据,比传统吉布斯采样算法具有更高的精度.Fast probabilistic topic modeling such as Latent Dirichlet Allocation (LDA) is widely employed in many fields including documents topic detection, automatic documents abstracting. To learn the parameters of LDA model, a parallel Belief Propagation(BP) algorithm is designed and implemented. Running on a multi-core server in a shared-memory way, the algorithm can immediately be used to infer LDA parameters to find the relationship between different topics and words within the documents. Experimental results on Enron and Wikipedia datasets confirm that the proposed fast BP algorithm can efficiently process data on a large scale and achieve a much better accuracy than the traditional Gibbs Sampling (GS) algorithm in terms of perplexity.

关 键 词:置信传播 主题模型 潜在狄利克雷分布 OpenMP技术 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象