检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈兴蜀[1] 高悦[1] 江浩[1] 杜敏[1] 王海舟[1] 何建云[1]
机构地区:[1]四川大学计算机学院∥网络与可信计算研究所,四川成都610065
出 处:《华南理工大学学报(自然科学版)》2016年第5期130-136,共7页Journal of South China University of Technology(Natural Science Edition)
基 金:国家科技支撑计划项目(2012BAH18B05);国家自然科学基金资助项目(61272447)~~
摘 要:为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪.In order to detect and track interesting topics from massive forum data,firstly,LDA( Latent Dirichlet Allocation) topic model is used to reduce the dimensionality of text data from word space to semantic space. Secondly,a clustering algorithm is employed to cluster the forum data in semantic space. Then,a detection method is proposed to obtain hot topics on the basis of which HTOLDA( Hot-Topic OLDA) topic model is proposed on the basis of OLDA( Online LDA) topic model,which performs priori delivery by choosing hot topics and sets semantic distance on the same topic of adjacent time slices to judge topic status. Experimental results show that HTOLDA topic model is superior to OLDA topic model in terms of modeling each time slice,and that it evolves and tracks the hot topics in online forums effectively.
关 键 词:文本处理 LDA话题模型 话题演化 话题跟踪 HTOLDA话题模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.252.132