文本聚类算法

作品数:129被引量:751H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章金春霞马慧芳秦永彬姚清耘更多>>
相关机构:中山大学西安电子科技大学西北师范大学贵州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 学科=自动化与计算机技术—计算机系统结构x
条 记 录,以下是1-10
视图:
排序:
CMDC:一种差异互补的迭代式多维度文本聚类算法被引量:4
《通信学报》2020年第8期155-164,共10页黄瑞章 白瑞娜 陈艳平 秦永彬 程欣宇 田有亮 
国家自然科学基金资助项目(No.61462011,No.91746116);国家自然科学基金联合基金资助项目(No.U1836205);贵州省科学技术基金资助项目(No.[2020]1Z055)。
针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚类间结果的互补文本,基于局部...
关键词:多维度文本聚类 互补文本 约束文本聚类 度量计算 
点密度优选中心最大熵核FCM文本聚类算法被引量:3
《计算机工程与设计》2016年第9期2411-2415,共5页吴陈 许友权 
国家自然科学基金项目(61100116);江苏省研究生创新计划基金项目(CXZZ13_0722)
为克服聚类算法对初始聚类中心选取敏感这一缺点,结合文本样本集中各个词所处位置不同而具有不同重要程度(权值)可客观反映文本数据本来特征的特点,提出一个考虑样本点分布密度优选初始聚类中心的最大熵核FCM算法(WKMEFCM)。实验结果表...
关键词:核方法 最大熵 特征权重 潜在语义索引 文本聚类 
基于增强蜂群优化与K-means的文本聚类算法被引量:8
《计算机应用研究》2016年第8期2298-2302,共5页柯钢 
国家自然科学基金资助项目(61106019);东莞市社会科技发展项目(2013108101045)
针对文本数据维度较高、空间分布稀疏及其聚类效果不佳的问题,提出一种基于增强蜂群优化搜索与K-means的高效文本聚类算法。首先为蜂群算法引入公平操作与克隆操作来提高全局搜索的能力,公平操作提高了样本多样性,并增强了蜂群搜索能力...
关键词:蜂群算法 公平操作 克隆操作 多样性 局部提炼 文本聚类 
基于后缀树的半监督自适应多密度文本聚类算法被引量:3
《小型微型计算机系统》2016年第1期100-103,共4页文平 刘渊 张春瑞 
中国工程物理研究院科学技术发展基金课题项目(2012A0403021)资助
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之...
关键词:后缀树 半监督 多密度 文本聚类 
文本聚类算法研究被引量:5
《软件导刊》2015年第1期74-76,共3页李春青 
文本聚类是聚类方法的一个重要应用,是近年研究热点。对文本聚类定义、流程、相关问题进行了阐述,对其主要算法及应用领域进行了详细介绍。
关键词:数据挖据 聚类分析 文本聚类算法 
结合seeds集和LDA的半监督文本聚类算法被引量:1
《计算机工程与设计》2014年第6期1994-1998,共5页周萍 秦永彬 黄瑞章 
国家自然科学基金项目(60863005;61262006;61202089);贵州省科学技术基金项目(黔科合J字[2012]2125号;黔科合J字[2012]2172号);贵州大学引进人才科研基金项目(贵大人基合字(2011)14号;贵大人基合字(2011)15号);贵州大学创新基金项目(研理工2013039)
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;...
关键词:机器学习 半监督学习 文本聚类 潜在狄利克雷分配 算法 
最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量:109
《计算机应用研究》2014年第3期713-715,719,共4页翟东海 鱼江 高飞 于磊 丁锋 
国家语委"十二五"科研规划项目(YB125-49);国家教育部科学技术研究重点项目(212167);中央高校基本科研业务费专项资金科技创新项目(SWJTU12CX096);西藏自治区大学生创新性实验训练计划项目(2011CX051)
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实...
关键词:K-MEANS聚类算法 最大距离 文本聚类 文本距离 测度函数 F度量值 
基于非负矩阵分解的双重约束文本聚类算法被引量:6
《计算机工程》2011年第24期161-163,共3页马慧芳 赵卫中 史忠植 
国家自然科学基金资助项目(61105052;61163039);西北师范大学青年教师科研能力提升计划基金资助项目"面向Web的主题建模关键技术研究"(NWNU-LKQN-10-1);湘潭大学博士启动基金资助项目(10QDZ42)
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统...
关键词:半监督聚类 非负矩阵分解 成对约束 类别约束 
基于优化初始中心点的K-means文本聚类算法被引量:8
《计算机与数字工程》2011年第10期30-31,共2页张世博 
K-means算法终止于一个局部最优状态,所以初始中心点的选择会在很大程度上影响其聚类效果。该文针对K-means算法所存在的问题,提出了一种优化初始中心点的算法。实验表明可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果。
关键词:K均值 聚类 初始中心点 
用于网页目录构建的文本聚类算法
《计算机工程与设计》2010年第9期2002-2004,2088,共4页严桂夺 陈建超 
广东省自然科学基金项目(07006474);广东省科技攻关基金项目(2007B010200044)
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法。改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方...
关键词:网页目录 文本聚类 特征向量 层次聚类 增量聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部