基于BBS-LDA的论坛主题挖掘  被引量:6

Forum topic mining based on BBS-LDA

在线阅读下载全文

作  者:田贤忠[1] 姚明超 顾思义 TIAN Xianzhong;YAO Mingchao;GU Siyi(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区:[1]浙江工业大学计算机科学与技术学院

出  处:《浙江工业大学学报》2020年第1期55-62,共8页Journal of Zhejiang University of Technology

基  金:国家自然科学基金资助项目(61672465,61772472);浙江省自然科学基金资助项目(LY15F020027,LY17F020020)

摘  要:概率生成模型LDA(Latent Dirichlet allocation)是对文本进行主题挖掘的重要手段,在近几年有着广泛的应用。对于论坛文本,因为其本身具有一些结构特性,单纯使用LDA并不能够最大限度地利用文本信息挖掘主题,水帖、大量的短回复以及同一版块帖子的背景词也极大地影响了其主题挖掘的效果。针对论坛文本的特点,提出了基于改进LDA的BBS-LDA模型,并使用Collapsed gibbs sampling对模型进行推导。由于该模型利用了论坛的用户信息,故在挖掘主题的同时能够识别论坛的水贴和背景词。在天涯论坛语料上进行的实验表明,BBS-LDA可以有效地对论坛进行主题挖掘。In recent years, the LDA topic model is an important means of mining topics for texts and has been widely used. For the forum text, because of its own structural characteristics, simply using LDA can not make full use of textual information to mine the topic. The meaningless posts and the background words which are very common in the forum may always bring huge noises and cause bad results. We proposed the BBS-LDA which combined LDA with the structural characteristics of forum and the user information. In this method, the collapsed gibbs sampling is used to derive the model. Since the model utilizes the user information of the forum, it can identify the meaningless post and background words while mining the theme. Experiments on Tianya forum corpus demonstrate that BBS-LDA will effectively mine the topics.

关 键 词:文本挖掘 主题模型 BBS-LDA 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象