检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:田贤忠[1] 姚明超 顾思义 TIAN Xianzhong;YAO Mingchao;GU Siyi(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310023,China)
机构地区:[1]浙江工业大学计算机科学与技术学院
出 处:《浙江工业大学学报》2020年第1期55-62,共8页Journal of Zhejiang University of Technology
基 金:国家自然科学基金资助项目(61672465,61772472);浙江省自然科学基金资助项目(LY15F020027,LY17F020020)
摘 要:概率生成模型LDA(Latent Dirichlet allocation)是对文本进行主题挖掘的重要手段,在近几年有着广泛的应用。对于论坛文本,因为其本身具有一些结构特性,单纯使用LDA并不能够最大限度地利用文本信息挖掘主题,水帖、大量的短回复以及同一版块帖子的背景词也极大地影响了其主题挖掘的效果。针对论坛文本的特点,提出了基于改进LDA的BBS-LDA模型,并使用Collapsed gibbs sampling对模型进行推导。由于该模型利用了论坛的用户信息,故在挖掘主题的同时能够识别论坛的水贴和背景词。在天涯论坛语料上进行的实验表明,BBS-LDA可以有效地对论坛进行主题挖掘。In recent years, the LDA topic model is an important means of mining topics for texts and has been widely used. For the forum text, because of its own structural characteristics, simply using LDA can not make full use of textual information to mine the topic. The meaningless posts and the background words which are very common in the forum may always bring huge noises and cause bad results. We proposed the BBS-LDA which combined LDA with the structural characteristics of forum and the user information. In this method, the collapsed gibbs sampling is used to derive the model. Since the model utilizes the user information of the forum, it can identify the meaningless post and background words while mining the theme. Experiments on Tianya forum corpus demonstrate that BBS-LDA will effectively mine the topics.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7