文本聚类算法

作品数:129被引量:751H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章金春霞马慧芳秦永彬姚清耘更多>>
相关机构:中山大学西安电子科技大学西北师范大学贵州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 学科=自动化与计算机技术—计算机科学与技术x
条 记 录,以下是1-10
视图:
排序:
基于动态主题情感模型的文本聚类算法
《吉林大学学报(理学版)》2025年第2期528-536,共9页胡萍 
国家自然科学基金面上项目(批准号:62066040);教育部人文社科青年基金(批准号:20YJC880030);铜仁学院博士科研启动基金(批准号:trxyDH1914)。
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模...
关键词:动态主题情感模型 文本挖掘 情感标签 时间戳 文本聚类 困惑度 
基于主题词向量中心点的K-means文本聚类算法
《计算机应用与软件》2024年第10期282-286,318,共6页季铎 刘云钊 彭如香 孔华锋 
国家重点研发计划项目(2018YFC0830401);辽宁网络安全执法协同创新中心开放课题。
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策...
关键词:K-MEANS 初始点 决策图 迭代类中心 主题词向量 
基于增量文本聚类算法的热点话题检测研究
《华北科技学院学报》2024年第1期76-81,124,共7页魏艺泽 郭慧 时晓旭 
科技创新2030重大项目(2021ZD0114203);国家社会科学基金项目(21BSH072)。
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类...
关键词:Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF 
基于改进DEC的评论文本聚类算法被引量:2
《吉林大学学报(理学版)》2023年第5期1147-1158,共12页陈可嘉 夏瑞东 林鸿熙 
国家自然科学基金(批准号:71701019);福建省财政厅专项资金项目(批准号:0300-83022110).
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题...
关键词:BERT模型 LDA模型 深度嵌入聚类 自动编码器 聚类 
基于二进制蜉蝣优化的特征选择及文本聚类算法被引量:2
《吉林大学学报(理学版)》2023年第3期631-640,共10页高新成 周中雨 王莉利 邵国铭 张强 
国家自然科学基金(批准号:61702093);东北石油大学引导性创新基金(批准号:2020YDL-03).
针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最...
关键词:二进制蜉蝣算法 文本聚类 收敛速度 特征选择 
面向热点话题检测的增量文本聚类算法被引量:4
《计算机系统应用》2022年第9期280-286,共7页郭莹 薛涛 胡伟华 
国家社会科学基金(18XYY010)。
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,...
关键词:Single-Pass 文本表示 文本聚类 文本相似度 热点话题检测 
基于RoBERTa-WWM和HDBSCAN的文本聚类算法被引量:1
《计算机与现代化》2022年第3期48-52,63,共6页刘锟 曾曦 邱梓珩 陈周国 
国家自然科学基金资助项目(61803352)。
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表...
关键词:文本聚类 预训练语言模型 可视化降维 密度聚类 
基于Hadoop平台的一种改进K-means文本聚类算法被引量:4
《微型电脑应用》2022年第1期5-7,共3页潘俊辉 王辉 张强 王浩畅 
国家自然科学基金(61702093);东北石油大学青年科学基金(2020QNL-02)。
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚...
关键词:K-MEANS 文本聚类 属性权重 HADOOP 
基于特征矩阵优化与数据降维的文本聚类算法被引量:19
《数据采集与处理》2021年第3期587-594,共8页陈玮 卢佳伟 
针对文本聚类问题中因为维度灾难以及特征信息丢失而导致的聚类效果低效问题,本文提出一种基于特征矩阵优化与改进主成分分析(Principal component analysis,PCA)降维的聚类算法。在原基于文档频率和逆词频(Term frequency inverse docu...
关键词:文本聚类 特征矩阵 联合熵 TF-IDF算法 PCA 
一种结合TF-IDF方法和词向量的短文本聚类算法被引量:12
《电子设计工程》2020年第21期5-9,共5页赵晓平 黄祖源 黄世锋 王永和 
国家自然科学基金青年项目(61702442)。
随着在线社交网络平台(微信、微博等)和APP(网易、学习强国)的快速发展和应用,产生了海量短文本。针对这些海量短文本,传统的文本聚类方法存在聚类性能较差的问题。本文融合TF-IDF方法和词向量,提出了一种短文本聚类方法。首先,使用TF-...
关键词:文本聚类 短文本 TF-IDF 词向量 自然语言处理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部