文本聚类

作品数:1001被引量:4944H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程与应用x
条 记 录,以下是1-10
视图:
排序:
基于句向量和卷积神经网络的文本聚类研究被引量:6
《计算机工程与应用》2022年第16期123-128,共6页贾君霞 王会真 任凯 康文 
国家自然科学基金(51867012);甘肃省科技计划资助项目(1504WKCA016)。
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成...
关键词:卷积神经网络(CNN) Doc2vec 文本表示 文本聚类 
融合BERT和自编码网络的短文本聚类研究被引量:5
《计算机工程与应用》2022年第2期145-152,共8页朱良奇 黄勃 黄季涛 马莉媛 史志才 
上海市信息安全综合管理技术重点实验室开放项目(AGK2019004);松江区科学技术研究项目(19SJKJGG83)。
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量。词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下...
关键词:短文本聚类 自动编码器 自然语言处理 BERT 
基于语义的档案数据智能分类方法研究被引量:23
《计算机工程与应用》2021年第6期247-253,共7页霍光煜 张勇 孙艳丰 尹宝才 
北京市科技计划(Z171100004417023)。
随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下...
关键词:LDA特征表示 文本聚类 FastText文本分类 档案管理 
用于文本聚类的新型差分进化粒子群算法被引量:8
《计算机工程与应用》2021年第4期61-67,共7页胡晓敏 王明丰 张首荣 李敏 
国家自然科学基金(61772142);广东省自然科学基金面上项目(2019A1515011270);广州市珠江科技新星项目(201806010059);广东省信息物理融合系统重点实验室项目(2016B030301008)。
针对粒子群优化(Particle Swarm Optimization,PSO)算法在维度高、特征稀疏的文本聚类过程中,随着算法迭代次数增加在后期陷入局部最优的问题,提出采用多样性更好的差分进化(Differential Evolution,DE)策略更新种群,尝试找到更好的全...
关键词:文本聚类 高维度 粒子群优化(PSO) 差分进化(DE) K-均值 
改进灰狼优化算法的K-Means文本聚类被引量:15
《计算机工程与应用》2021年第1期188-193,共6页潘成胜 张斌 吕亚娜 杜秀丽 邱少明 
中央军委装备发展部领域基金。
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并...
关键词:K-MEANS算法 文本聚类 灰狼优化算法 免疫克隆 粒子群 
基于图模型的多文档摘要生成算法被引量:5
《计算机工程与应用》2020年第16期124-131,共8页张云纯 张琨 徐济铭 袁卫平 蔡颖 高雅 
南京理工大学自主科研专项(No.30918012204);江苏省研究生科研创新计划(No.KYCX19_0307)。
提出一种基于图模型的多文档摘要生成算法,对海外大量新闻文档进行主题划分,并提取每个主题的摘要。利用传统的基于图模型方法得到的摘要,其冗余度较高,亦不能够充分考虑新闻文本时效性强、主题明确的特征。在文本特征向量化方面,引入...
关键词:文本聚类 自动摘要 图模型 多特征融合 
基于LDA模型和Doc2vec的学术摘要聚类方法被引量:23
《计算机工程与应用》2020年第6期180-185,共6页张卫卫 胡亚琦 翟广宇 刘志鹏 
中国博士后科学基金(No.2016M600827);国家自然科学基金(No.71861026);教育部哲学社会科学研究重大课题攻关项目(No.16JZD023)
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型...
关键词:短文本聚类 LDA模型 Doc2vec模型 学术摘要 
基于余弦距离选取初始簇中心的文本聚类研究被引量:23
《计算机工程与应用》2018年第10期11-18,共8页王彬宇 刘文芬 胡学先 魏江宏 
国家自然科学基金(No.61502527;No.61702549)
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无...
关键词:文本聚类 K-MEANS算法 余弦相似度 余弦距离 初始点选取 
微博文本聚类中特征扩展策略研究被引量:2
《计算机工程与应用》2017年第13期90-94,195,共6页段旭磊 张仰森 郭正斌 
国家自然科学基金(No.61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(No.IDHT20130519)
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词...
关键词:微博文本 高维稀疏 关键词提取 相似词 相关词 特征扩展 聚类 
结合语义改进的K-means短文本聚类算法被引量:14
《计算机工程与应用》2016年第19期78-83,共6页邱云飞 赵彬 林明明 王伟 
国家自然科学基金(No.71371091);辽宁省高等学校杰出青年学者成长计划(No.LJQ2012027);辽宁省教育厅一般项目(No.L2013131)
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集...
关键词:文本挖掘 短文本聚类 K-MEANS算法 最大频繁词集 知网 语义相似度 
检索报告 对象比较 聚类工具 使用帮助 返回顶部