检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨洋 江开忠 原明君 惠岚昕 Yang Yang;Jiang Kaizhong;Yuan Mingjun;Hui Lanxin(School of Mathematics and Statistics,Shanghai University of Engineering Science,Shanghai 201620,China)
机构地区:[1]上海工程技术大学数理与统计学院,上海201620
出 处:《数据分析与知识发现》2022年第11期72-78,共7页Data Analysis and Knowledge Discovery
基 金:全国统计科学研究项目(项目编号:2020LY080)的研究成果之一。
摘 要:【目的】针对LDA模型中主题数目需指定的问题,提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法。【方法】将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量;再利用Co-DPSC算法对两个视图进行协同训练,得到包含时序影响的语义特征矩阵;最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数。【结果】实验结果表明:考虑语义和时间因素确定最优主题数,查准率和F值分别提高了35.09个百分点和15.39个百分点。【局限】对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行时间。本文算法仅针对新闻数据,在其他类型数据上具有一定局限性。【结论】实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能够在一定程度上提升最优主题数目选取的准确性。[Objective]This paper proposes an adaptive method to decide the optimal topic numbers for the LDA model,aiming to effectively identify news topics.[Methods]Frist,we extract the needed data from news using semantics and time series,which helped us construct the corresponding feature vectors.Then,we utilized the CoDPSC algorithm to collaboratively train the two views and obtained a semantic feature matrix containing timing effects.Finally,we conducted the density peak clustering by row after the matrix dimension reduction,which generated the optimal number of topics.[Results]The precision and F value of the proposed model were improved by 35.09%and 15.39%.[Limitations]We only clustered keywords from news and need to examine the new model with datasets from other fields.[Conclusions]The proposed method could provide better number of topics for the LDA model.
分 类 号:TP393[自动化与计算机技术—计算机应用技术] G250[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7