文本聚类

作品数:1002被引量:4956H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=中央高校基本科研业务费专项资金x
条 记 录,以下是1-10
视图:
排序:
融合知识库语义的文本聚类研究被引量:7
《情报杂志》2021年第5期156-164,共9页吴锦池 余维杰 
中山大学中央高校基本科研业务费专项资金资助(编号:19wkpy149)。
[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用。基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进...
关键词:同义词词林 知识库 文本聚类 语义 
基于语义特征抽取的文本聚类研究被引量:3
《计算机技术与发展》2020年第3期46-50,共5页殷硕 王卫亚 柳有权 
中央高校基本科研业务费专项资金(310824173401)。
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使...
关键词:文本聚类 语义特征抽取 特征降维 文本相似度 知网 
QH-K:面向新闻文本主题抽取的改进H-K聚类算法被引量:6
《南京邮电大学学报(自然科学版)》2020年第1期82-88,共7页杨玉娟 冯霞 王永利 
国家自然科学基金(61170035,61272420,81674099);江苏省“六大人才高峰”高层次人才项目(WLW-004);中央高校基本科研业务费专项资金(30916011328,30918015103);南京市科技发展计划(201805036);江苏省科技成果转化专项资金(BA2013047);提升政府治理能力大数据应用技术国家工程实验室2017-2018年度开放基金资助项目。
随着网络信息文本的爆发式增长,人们从繁多的新闻中获取特定有效的信息变得愈发困难。在大数据处理中,学者们经常使用文本聚类方法作为新闻主题提取和趋势跟踪的主要措施。针对凝聚型层次聚类算法和K-Means算法在文本聚类上的优势和缺陷...
关键词:文本聚类 凝聚型层次聚类 K-MEANS 
基于频繁模式的长尾文本聚类算法被引量:1
《计算机系统应用》2019年第4期139-144,共6页宋中山 张广凯 尹帆 帖军 
国家科技支撑计划项目子课题(2015BAD29B01);农业部软科学研究课题(D201721);中央高校基本科研业务费专项资金(CZY18016)~~
短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在"长尾现象",传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collabora...
关键词:文本聚类 长尾现象 频繁模式 K中心点算法 
微博用户兴趣主题抽取方法被引量:3
《电子科技大学学报》2018年第4期633-640,共8页杨仁凤 陈端兵 谢文波 
国家自然科学基金(61433014;61673085);中央高校基本科研业务费专项资金(ZYGX2014Z002)
根据社交媒体短文本特征改进了词袋模型,利用特征之间的语义关系提出了语义表示模型,采用句子中特征先后顺序构建了次序图模型,在此基础上引入时间因素,提出了基于Single-Pass算法的用户兴趣主题模型用于抽取微博用户关注的话题。实验...
关键词:兴趣抽取 微博 Single-Pass 文本聚类 主题模型 
基于Canopy+K-means的中文文本聚类算法被引量:17
《图书馆论坛》2018年第6期113-119,共7页张琳 牟向伟 
中国博士后科学基金资助项目"大数据环境下基于异构图的文本聚类在自动文摘中的应用"(项目编号:2015M571292);中央高校基本科研业务费专项资金资助项目"大数据环境下基于Spark的文本聚类研究"(项目编号:3132017089)研究成果
随着互联网的发展,网络电子文本的数量急剧增加,给人们快速高效地从海量数据中挖掘出所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。文章在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个...
关键词:K-MEANS CANOPY 文本聚类 Word2vec 
基于词向量和EMD距离的短文本聚类被引量:11
《山东大学学报(理学版)》2017年第7期66-72,共7页黄栋 徐博 许侃 林鸿飞 杨志豪 
国家自然科学基金资助项目(61572102;61602078;61562080);国家高技术研究发展计划(863)资助项目(2006AA01Z151);辽宁省自然科学基金资助项目(201202031;2014020003);教育部留学回国人员科研启动基金;高等学校博士学科点专项科研基金资助课题(20090041110002);中央高校基本科研业务费专项资金资助
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示...
关键词:短文本 EMD距离 词向量 相似度计算 聚类 
基于密度峰值优化的K-means文本聚类算法被引量:26
《计算机工程与设计》2017年第4期1019-1023,共5页田诗宵 丁立新 郑金秋 
国家自然科学基金项目(60975050);中央高校基本科研业务费专项基金项目(2452015197;2452015194;2452015200)
传统K-means算法中初始质心选定的随机性可能使算法陷入局部最优解,使聚类结果不够准确。改进初始质心的选择算法,为各样本点引入局部密度指标,根据其局部密度分布情况,选取处于密度峰值的点作为初始质心,得到稳定的离收敛质心很近的初...
关键词:文本聚类 密度峰值 F度量 K均值 向量化 
一种K-means改进算法的并行化实现与应用被引量:50
《电子科技大学学报》2017年第1期61-68,共8页李晓瑜 俞丽颖 雷航 唐雪飞 
国家科技支撑计划(2012BAH87F03);中央高校基本科研业务费(ZYGX2014J065)
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因...
关键词:canopy算法 HADOOP MAPREDUCE 并行K—means 文本聚类 
双重遗传算法在文本聚类中的应用
《计算机工程与设计》2016年第9期2435-2439,2458,共6页文静 曹妍 牟向伟 
辽宁省创新团队基金项目(LT2011007);中国博士后科学基金项目(2014M551063);辽宁省教育厅科技研究基金项目(L2014203);辽宁省社会科学规划基金项目(L14BGL012);中央高校基本科研业务费专项基金项目(3132015050);中国博士后科学基金项目(2015M571292);中央高校基本科研业务费基金项目(3132015049)
为提高文本聚类效果,将影响聚类效果的两大因素聚类数目和初始中心点作为自变量,聚类结果的适应度作为因变量,利用双重遗传算法控制两大自变量,提出TCDGK算法模型。引入经典的k-means聚类算法获得不同初始中心点下的聚类结果,针对内外...
关键词:双重遗传算法 聚类紧密度 分层编码 K-MEANS算法 文本聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部