文本聚类算法

作品数:129被引量:748H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章金春霞马慧芳秦永彬姚清耘更多>>
相关机构:中山大学西安电子科技大学西北师范大学贵州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于动态主题情感模型的文本聚类算法
《吉林大学学报(理学版)》2025年第2期528-536,共9页胡萍 
国家自然科学基金面上项目(批准号:62066040);教育部人文社科青年基金(批准号:20YJC880030);铜仁学院博士科研启动基金(批准号:trxyDH1914)。
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模...
关键词:动态主题情感模型 文本挖掘 情感标签 时间戳 文本聚类 困惑度 
基于主题词向量中心点的K-means文本聚类算法
《计算机应用与软件》2024年第10期282-286,318,共6页季铎 刘云钊 彭如香 孔华锋 
国家重点研发计划项目(2018YFC0830401);辽宁网络安全执法协同创新中心开放课题。
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策...
关键词:K-MEANS 初始点 决策图 迭代类中心 主题词向量 
基于增量文本聚类算法的热点话题检测研究
《华北科技学院学报》2024年第1期76-81,124,共7页魏艺泽 郭慧 时晓旭 
科技创新2030重大项目(2021ZD0114203);国家社会科学基金项目(21BSH072)。
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类...
关键词:Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF 
融合密度和划分的文本聚类算法
《计算机与数字工程》2024年第1期178-183,共6页刘龙 刘新 蔡林杰 唐朝 
网络犯罪侦查湖南省普通高校重点实验室开放课题项目(编号:2018WLFZZC003)资助。
文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中...
关键词:文档聚类 BERT K-均值算法 密度 最远距离 
基于改进DEC的评论文本聚类算法被引量:2
《吉林大学学报(理学版)》2023年第5期1147-1158,共12页陈可嘉 夏瑞东 林鸿熙 
国家自然科学基金(批准号:71701019);福建省财政厅专项资金项目(批准号:0300-83022110).
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题...
关键词:BERT模型 LDA模型 深度嵌入聚类 自动编码器 聚类 
卷积神经网络在敏感客户模型的应用研究
《中国质量》2023年第7期107-111,共5页黎伟健 胡莉琼 朱凯亮 陈钦顺 
研究基于卷积神经网络的文本聚类算法,并在此算法基础上生成敏感客户模型。一是扩大客户声音样本:从10086热线投诉拓展到总部服务标签、智能客服交互记录、满意度短信调研客户反馈、端内用后即评客户声音、互联网社区客户评论等样本。...
关键词:卷积神经网络 文本聚类算法 敏感客户模型 拦截 
基于二进制蜉蝣优化的特征选择及文本聚类算法被引量:2
《吉林大学学报(理学版)》2023年第3期631-640,共10页高新成 周中雨 王莉利 邵国铭 张强 
国家自然科学基金(批准号:61702093);东北石油大学引导性创新基金(批准号:2020YDL-03).
针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最...
关键词:二进制蜉蝣算法 文本聚类 收敛速度 特征选择 
关键语义信息补足的深度文本聚类算法被引量:1
《计算机应用研究》2023年第6期1653-1659,共7页郑璐依 黄瑞章 任丽娜 白瑞娜 林川 
国家自然科学基金资助项目(62066007)。
针对大多数现有的深度文本聚类方法在特征映射过程中过于依赖原始数据质量以及关键语义信息丢失的问题,提出了一种基于关键语义信息补足的深度文本聚类算法(DCKSC)。该算法首先通过提取关键词数据对原始文本数据进行数据增强;其次,设计...
关键词:深度文本聚类 表征学习 自动编码器 自监督聚类 数据增强 
一种基于卷积神经网络构建的文本聚类算法在敏感客户模型的应用研究被引量:1
《科技传播》2023年第3期103-105,共3页黎伟健 叶天宽 彭涛 胡斌 胡莉琼 朱凯亮 
基于卷积神经网络构建的文本聚类算法,在此算法基础上生成敏感客户模型。该敏感客户模型有三大特征:扩大客户声音样本、运用实时深度学习算法、实现多样化拦截手段。文章详细阐述了利用卷积神经网络构造敏感客户模型的方法 ,以及该敏感...
关键词:卷积神经网络 文本聚类算法 敏感客户模型 
面向热点话题检测的增量文本聚类算法被引量:4
《计算机系统应用》2022年第9期280-286,共7页郭莹 薛涛 胡伟华 
国家社会科学基金(18XYY010)。
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,...
关键词:Single-Pass 文本表示 文本聚类 文本相似度 热点话题检测 
检索报告 对象比较 聚类工具 使用帮助 返回顶部