文本聚类算法

作品数:129被引量:751H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章金春霞马慧芳秦永彬姚清耘更多>>
相关机构:中山大学西安电子科技大学西北师范大学贵州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程与设计x
条 记 录,以下是1-10
视图:
排序:
基于词向量和增量聚类的短文本聚类算法被引量:14
《计算机工程与设计》2019年第10期2985-2990,3055,共7页杨波 杨文忠 殷亚博 何雪琴 袁婷婷 刘泽洋 
国家自然科学基金项目(U1603115、61262087);国家自然科学基金重点基金项目(U1435215);新疆维吾尔自治区自然科学基金项目(2017D01C042)
由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE...
关键词:短文本 词向量 文本表示 空间金字塔池化 增量聚类 
基于密度峰值优化的K-means文本聚类算法被引量:26
《计算机工程与设计》2017年第4期1019-1023,共5页田诗宵 丁立新 郑金秋 
国家自然科学基金项目(60975050);中央高校基本科研业务费专项基金项目(2452015197;2452015194;2452015200)
传统K-means算法中初始质心选定的随机性可能使算法陷入局部最优解,使聚类结果不够准确。改进初始质心的选择算法,为各样本点引入局部密度指标,根据其局部密度分布情况,选取处于密度峰值的点作为初始质心,得到稳定的离收敛质心很近的初...
关键词:文本聚类 密度峰值 F度量 K均值 向量化 
点密度优选中心最大熵核FCM文本聚类算法被引量:3
《计算机工程与设计》2016年第9期2411-2415,共5页吴陈 许友权 
国家自然科学基金项目(61100116);江苏省研究生创新计划基金项目(CXZZ13_0722)
为克服聚类算法对初始聚类中心选取敏感这一缺点,结合文本样本集中各个词所处位置不同而具有不同重要程度(权值)可客观反映文本数据本来特征的特点,提出一个考虑样本点分布密度优选初始聚类中心的最大熵核FCM算法(WKMEFCM)。实验结果表...
关键词:核方法 最大熵 特征权重 潜在语义索引 文本聚类 
结合权重因子与特征向量改进的文本聚类算法被引量:1
《计算机工程与设计》2015年第4期1051-1057,共7页董跃华 郭士串 
江西省研究生创新专项基金项目(YC2013-S198)
为解决特征词权重表示文本时存在的局限性和遗传K-均值算子操作的低效性问题,提出一种包含文本预处理和改进算法的文本聚类方法。根据权重因子和特征向量进行文本预处理,更好体现文本间的差异性,通过遗传控制因子控制个体的交叉和变异,...
关键词:文本聚类 权重因子 特征向量 遗传K-均值 遗传控制因子 
结合seeds集和LDA的半监督文本聚类算法被引量:1
《计算机工程与设计》2014年第6期1994-1998,共5页周萍 秦永彬 黄瑞章 
国家自然科学基金项目(60863005;61262006;61202089);贵州省科学技术基金项目(黔科合J字[2012]2125号;黔科合J字[2012]2172号);贵州大学引进人才科研基金项目(贵大人基合字(2011)14号;贵大人基合字(2011)15号);贵州大学创新基金项目(研理工2013039)
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;...
关键词:机器学习 半监督学习 文本聚类 潜在狄利克雷分配 算法 
结合语义的改进FTC文本聚类算法被引量:5
《计算机工程与设计》2014年第2期515-519,共5页王秀慧 王丽珍 麻淑芳 
山西省科技基础条件平台基金项目(2011091002-0102);山西大同大学青年科研基金项目(2010Q13)
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到...
关键词:文本聚类 频繁项集 知网 簇相似度 软划分 
基于DBSCAN的最优密度文本聚类算法被引量:14
《计算机工程与设计》2012年第4期1409-1413,共5页李群 袁津生 
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现。该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优...
关键词:搜索引擎 文本聚类 密度聚类 簇关系树 动态聚类 
基于GEP和CPN网络的文本聚类算法
《计算机工程与设计》2011年第11期3873-3876,共4页罗锦光 元昌安 郭乙江 邹鹏 
国家自然科学基金项目(60763012);广西新世纪十百千人才工程专项基金项目(RC2007022);广西高等学校优秀人才计划基金项目(RC2007022);广西研究生教育创新计划基金项目(2010106030774M02)
针对传统的方法很难做到根据输入向量的实际分布来设置Kohonen层各神经元对应的权向量的状况,因其会影响文本的聚类质量,所以利用人工神经网络和基因表达式编程(GEP)的互补优势,通过利用GEP在组合优化的方法进行对CPN网络中Kohonen层的...
关键词:文本聚类 基因表达式 对传网络 神经网络 自组织映射 
《计算机工程与设计》2010年第31卷总目次
《计算机工程与设计》2010年第24期I0001-I0023,共23页
关键词:算法设计 计算机工程与设计 文本聚类算法 检测算法 目次 2010 
用于网页目录构建的文本聚类算法
《计算机工程与设计》2010年第9期2002-2004,2088,共4页严桂夺 陈建超 
广东省自然科学基金项目(07006474);广东省科技攻关基金项目(2007B010200044)
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法。改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方...
关键词:网页目录 文本聚类 特征向量 层次聚类 增量聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部