检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:闫志华 唐锡晋[1,2] YAN Zhihua;TANG Xijin(Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]中国科学院数学与系统科学研究院,北京100190 [2]中国科学院大学,北京100049
出 处:《系统工程理论与实践》2021年第5期1138-1149,共12页Systems Engineering-Theory & Practice
基 金:国家重点研发基金(2016YFB1000902);国家自然科学基金(71731002,71971190)。
摘 要:在线媒体拥有海量的非结构化数据,包含大量的突发话题和普通话题.传统的话题模型在不加入先验信息的情况下,无法有效区分普通话题和突发话题.本文的研究提出基于高效用模式和话题模型的突发话题发现(high utility bursty topic model,HU-BTM)模型.该模型使用高效用模式挖掘找出文本数据中的突发词组,使用基于普通Polya坛子模型的Gibbs抽样方法,将突发词组与突发词引入话题模型,实现突发话题的自动识别.实验结果表明与现有的主要突发话题发现方法比较,HU-BTM模型在准确率和召回率指标上优于对比算法.Online media carry a huge amount of unstructured data,including a large number of common topics.Without prior information,the traditional topic model cannot effectively distinguish ordinary topics and emergent topics.In this paper,a high utility bursty topic model(HU-BTM)based on high utility pattern and topic model is proposed.In HU-BTM,bursty phrases and bursty words are found through high utility mining,and Gibbs sampling method based on general Polya urn model is used to introduce bursty phrases and bursty words into topic model to realize automatic discovery of bursty topic.The experimental results show that compared with the existing mainstream methods for discovering Bursty topics,the HU-BTM has better performances of precision and recall.
分 类 号:TP391[自动化与计算机技术—计算机应用技术] C931[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.91