文本聚类

作品数:1001被引量:4944H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程x
条 记 录,以下是1-10
视图:
排序:
基于自适应结构学习的深度文本聚类被引量:1
《计算机工程》2024年第11期89-97,共9页潘伟 黄瑞章 任丽娜 薛菁菁 
国家自然科学基金(62166007);贵州省自然科学基金(黔科合基础ZK[2022]027)。
近年来,将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而,结构信息的构造方法大多只进行简单的距离测算且近邻数量固定,导致构建的图难以获得较精确的文本结构信息。另外,众多方法对近邻文本只进行一阶挖掘,使图...
关键词:阈值 深度文本聚类 文本结构信息 图神经网络 自适应结构学习 
基于DMA与特征划分的多源文本主题模型被引量:2
《计算机工程》2021年第7期59-66,共8页许伟佳 秦永彬 黄瑞章 陈艳平 
国家自然科学基金联合基金重点项目(U1836205);国家自然科学基金重大研究计划项目(91746116);贵州省科技厅重大专项(黔科合重大专项字2017-3002号);贵州省科学技术基金重点项目(黔科合基础2020-1Z055号)。
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,...
关键词:多源文本主题模型 文本聚类 狄利克雷多项分配 特征划分 GIBBS采样 
基于差分进化的两阶段文本特征选择算法被引量:6
《计算机工程》2019年第2期303-309,314,共8页肖晓丽 吴瑶 周锡玲 廖卓凡 
国家自然科学基金(61402056)
为降低文本特征空间维度,提高数据挖掘处理数据的效率,提出两阶段文本特征选择算法。结合方差和平均中位数2种方法构建高相关性的特征子集进行初步降维,并将其作为差分进化算法的初始特征种群。利用特征词的累计词频和文档频率设计适应...
关键词:混合特征选择 降维 差分进化算法 方差 平均中位数 文本聚类 
一种基于谱分割的短文本聚类算法被引量:1
《计算机工程》2016年第8期178-182,共5页李晓红 谢蒙 马慧芳 何廷年 
国家自然科学基金资助项目(61163039;61363058);甘肃省青年科技基金资助项目(1308TJY085;145RJYA259);中国科学院计算技术研究所智能信息处理重点实验室开放基金资助项目(IIP2014-4)
短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文...
关键词:短文本 相似度矩阵 无向带权图 RMcut准则 聚类算法 
基于改进粒子群优化的文本聚类算法研究被引量:8
《计算机工程》2014年第11期172-177,共6页王永贵 林琳 刘宪国 
国家自然科学基金资助项目(60903082);辽宁省教育厅基金资助项目(L2012113)
针对k-means算法的聚类结果高度依赖初始聚类中心选取的问题,提出一种基于改进粒子群优化的文本聚类算法。分析粒子群算法和k-means算法的特点,针对粒子群算法搜索精度不高、易陷入局部最优且早熟收敛的缺点,设计自调节惯性权重机制及...
关键词:粒子群优化 自调节惯性权重机制 进化程度 云变异算子 K-MEANS算法 文本聚类 
基于URL的中文多语义名词在线语义标注
《计算机工程》2014年第10期150-154,共5页刘一正 杨静 李强 
上海市国际科技合作基金资助项目(11530700300);上海市科委科研基金资助项目"面向NGB的智能业务分析关键技术研究及系统研制"(12dz1500205)
中文语义标注在自然语言处理领域有广泛的应用,其目的在于挖掘并标注出中文多语义名词的多个语义。提出一种新颖的语义标注算法,通过在线URL分类目录,构建得到URL分类器。借助于URL分类器,对搜索引擎返回的多语义名词的搜索结果(包括网...
关键词:语义标注 自然语言处理 中文多语义名词 URL分类器 文本聚类 热词 
一种基于簇相合性的文本增量聚类算法被引量:2
《计算机工程》2014年第6期195-200,共6页陶舒怡 王明文 万剑怡 罗远胜 左家莉 
国家自然科学基金资助项目(61272212)
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量...
关键词:文本聚类 增量聚类 语义相似度 簇相合性 文本再分配 
融合语义资源和关键词的文本聚类被引量:7
《计算机工程》2014年第4期223-227,共5页吴舜尧 邵峰晶 王金龙 孙仁诚 王营 
国家自然科学基金资助项目(91130035);国家公益性行业科研专项基金资助项目(200905030-2);山东省自然科学基金资助重点项目(ZR2012FZ003);山东省自然科学基金资助项目(ZR2012FQ017);青岛市科技计划基金资助项目(13-1-4-12-jch;12-1-4-4-(8)-jch)
融合关键词形式的属性层知识可有效提高文本聚类的聚类质量,但融合关键词的簇中心初始化仍是一个开放性问题。为此,提出一种融合语义资源和关键词的文本聚类方法。通过Wikipedia语义识别文本集的主题,采用基于资源分配的网络推断策略,...
关键词:文本聚类 Wikipedia语义 簇中心初始化 网络推断 重要文档 
基于微博短文本的用户兴趣建模方法被引量:21
《计算机工程》2014年第2期275-279,共5页邱云飞 王琳颍 邵良杉 郭红梅 
国家自然科学基金资助项目(70971059);辽宁省创新团队基金资助项目(2009T045);辽宁省高等学校杰出青年学者成长计划基金资助项目(JQ2012027)
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特...
关键词:微博 短文本重构 概念映射 短文本聚类 用户兴趣模型 
结合语义与统计的特征降维短文本聚类被引量:7
《计算机工程》2012年第22期171-175,共5页杨婉霞 孙理和 黄永峰 
国家“863”计划基金资助项目(2011AA010704,2012AA011004);清华大学自主科研基金资助项目“跨媒体分布式垂直搜索及舆情分析的关键技术”(20111081023)
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表...
关键词:特征选择 聚类 短文本 向量空间模型 语义 降维 
检索报告 对象比较 聚类工具 使用帮助 返回顶部