大语言模型增强下的社媒平台热榜主题分析  被引量:1

Topic Analysis of Social Media Hotlists Enhanced by Large Language Models

在线阅读下载全文

作  者:郑文镇 唐锡晋[1,2] ZHENG Wenzhen;TANG Xijin(Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区:[1]中国科学院数学与系统科学研究院,北京100190 [2]中国科学院大学,北京100049

出  处:《系统科学与数学》2024年第6期1630-1648,共19页Journal of Systems Science and Mathematical Sciences

基  金:国家自然科学基金(71971190)资助课题。

摘  要:社交媒体平台的热门榜单作为热点信息的汇聚和展示,对于我们理解当前热点话题具有很大的启示.但由于热榜文本存在词汇稀疏和文本较短的问题,传统LDA和基于神经网络的主题挖掘模型面临着主题聚合表现不佳的表现.对此,文章提出了一个基于大型语言模型增强的主题建模框架——STAB.该框架结合大语言模型对文本数据的生成式增强能力,以及文档嵌入在主题建模中的优异表现,能够在短文本数据集上挖掘出有意义的主题.在多个数据集上的实验结果表明,在通用客观评价指标和下游任务应用方面,该框架均优于已有的主题建模方法.A variety of hot topics lists released by social media platforms serve as a convergence and showcase for hot topic information,which provides significant insights toward our understanding of current popular discussions.However,due to vocabulary sparsity and short text length in hot list texts,traditional LDA and neural network-based topic mining models face poor performance in topic aggregation.To address these challenges,the paper proposes a topic modeling framework enhanced by a large language model—STAB,which combines the generative capabilities of large language models for text data with the excellent performance of document embeddings in topic modeling,enabling the extraction of meaningful topics from short text datasets.Experimental results on multiple datasets show that our framework outperforms existing topic modeling methods in terms of general objective evaluation metrics and applications in downstream tasks.

关 键 词:社交媒体分析 主题模型 短文本主题建模 大语言模型 数据增强 舆情分析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象