新闻话题识别中LDA最优主题数选取研究  被引量:9

Selecting Optimal LDA Numbers to Identify News Topics

在线阅读下载全文

作  者:杨洋 江开忠 原明君 惠岚昕 Yang Yang;Jiang Kaizhong;Yuan Mingjun;Hui Lanxin(School of Mathematics and Statistics,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区:[1]上海工程技术大学数理与统计学院,上海201620

出  处:《数据分析与知识发现》2022年第11期72-78,共7页Data Analysis and Knowledge Discovery

基  金:全国统计科学研究项目(项目编号:2020LY080)的研究成果之一。

摘  要:【目的】针对LDA模型中主题数目需指定的问题,提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法。【方法】将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量;再利用Co-DPSC算法对两个视图进行协同训练,得到包含时序影响的语义特征矩阵;最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数。【结果】实验结果表明:考虑语义和时间因素确定最优主题数,查准率和F值分别提高了35.09个百分点和15.39个百分点。【局限】对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行时间。本文算法仅针对新闻数据,在其他类型数据上具有一定局限性。【结论】实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能够在一定程度上提升最优主题数目选取的准确性。[Objective]This paper proposes an adaptive method to decide the optimal topic numbers for the LDA model,aiming to effectively identify news topics.[Methods]Frist,we extract the needed data from news using semantics and time series,which helped us construct the corresponding feature vectors.Then,we utilized the CoDPSC algorithm to collaboratively train the two views and obtained a semantic feature matrix containing timing effects.Finally,we conducted the density peak clustering by row after the matrix dimension reduction,which generated the optimal number of topics.[Results]The precision and F value of the proposed model were improved by 35.09%and 15.39%.[Limitations]We only clustered keywords from news and need to examine the new model with datasets from other fields.[Conclusions]The proposed method could provide better number of topics for the LDA model.

关 键 词:LDA模型 新闻话题 多视图聚类 

分 类 号:TP393[自动化与计算机技术—计算机应用技术] G250[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象