检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]苏州科技学院电子信息工程学院,江苏苏州215011 [2]苏州大学计算机科学与技术学院,江苏苏州215006
出 处:《南通大学学报(自然科学版)》2013年第1期1-8,共8页Journal of Nantong University(Natural Science Edition)
基 金:国家自然科学基金项目(61003259;61272449)
摘 要:基于OpenMP技术提出并行置信传播算法,在多核服务器上通过共享内存的方式快速推断潜在狄利克雷分布(LDA)主题模型的参数,建立文本中不同主题与文本表面单词之间的联系.利用Enron和Wikipedia数据集,通过3组实验对比了传统吉布斯算法和并行置信传播算法的运行效果.结果表明,并行置信传播算法能够快速推断LDA模型参数,高效处理大规模数据,比传统吉布斯采样算法具有更高的精度.Fast probabilistic topic modeling such as Latent Dirichlet Allocation (LDA) is widely employed in many fields including documents topic detection, automatic documents abstracting. To learn the parameters of LDA model, a parallel Belief Propagation(BP) algorithm is designed and implemented. Running on a multi-core server in a shared-memory way, the algorithm can immediately be used to infer LDA parameters to find the relationship between different topics and words within the documents. Experimental results on Enron and Wikipedia datasets confirm that the proposed fast BP algorithm can efficiently process data on a large scale and achieve a much better accuracy than the traditional Gibbs Sampling (GS) algorithm in terms of perplexity.
关 键 词:置信传播 主题模型 潜在狄利克雷分布 OpenMP技术
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249