检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郑文镇 唐锡晋[1,2] ZHENG Wenzhen;TANG Xijin(Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)
机构地区:[1]中国科学院数学与系统科学研究院,北京100190 [2]中国科学院大学,北京100049
出 处:《系统科学与数学》2024年第6期1630-1648,共19页Journal of Systems Science and Mathematical Sciences
基 金:国家自然科学基金(71971190)资助课题。
摘 要:社交媒体平台的热门榜单作为热点信息的汇聚和展示,对于我们理解当前热点话题具有很大的启示.但由于热榜文本存在词汇稀疏和文本较短的问题,传统LDA和基于神经网络的主题挖掘模型面临着主题聚合表现不佳的表现.对此,文章提出了一个基于大型语言模型增强的主题建模框架——STAB.该框架结合大语言模型对文本数据的生成式增强能力,以及文档嵌入在主题建模中的优异表现,能够在短文本数据集上挖掘出有意义的主题.在多个数据集上的实验结果表明,在通用客观评价指标和下游任务应用方面,该框架均优于已有的主题建模方法.A variety of hot topics lists released by social media platforms serve as a convergence and showcase for hot topic information,which provides significant insights toward our understanding of current popular discussions.However,due to vocabulary sparsity and short text length in hot list texts,traditional LDA and neural network-based topic mining models face poor performance in topic aggregation.To address these challenges,the paper proposes a topic modeling framework enhanced by a large language model—STAB,which combines the generative capabilities of large language models for text data with the excellent performance of document embeddings in topic modeling,enabling the extraction of meaningful topics from short text datasets.Experimental results on multiple datasets show that our framework outperforms existing topic modeling methods in terms of general objective evaluation metrics and applications in downstream tasks.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49