文本聚类

作品数:1001被引量:4944H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=国家科技支撑计划x
条 记 录,以下是1-10
视图:
排序:
结合新概念分解和频繁词集的短文本聚类被引量:4
《小型微型计算机系统》2020年第6期1321-1326,共6页贾瑞玉 陈胜发 
国家科技支撑计划项目(2015BAK24B01)资助.
针对传统文本聚类忽略词与词之间的语义关系和数据高维的问题,提出了一种结合新概念分解和频繁词集的短文本聚类.该算法首先对短文本进行频繁词集的挖掘,接着使用挖掘的频繁词集来表示每个短文本,然后将每个文本进行向量表示.为了提高...
关键词:文本聚类 概念分解 频繁词集 文本表示 
基于频繁模式的长尾文本聚类算法被引量:1
《计算机系统应用》2019年第4期139-144,共6页宋中山 张广凯 尹帆 帖军 
国家科技支撑计划项目子课题(2015BAD29B01);农业部软科学研究课题(D201721);中央高校基本科研业务费专项资金(CZY18016)~~
短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在"长尾现象",传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collabora...
关键词:文本聚类 长尾现象 频繁模式 K中心点算法 
一种K-means改进算法的并行化实现与应用被引量:50
《电子科技大学学报》2017年第1期61-68,共8页李晓瑜 俞丽颖 雷航 唐雪飞 
国家科技支撑计划(2012BAH87F03);中央高校基本科研业务费(ZYGX2014J065)
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因...
关键词:canopy算法 HADOOP MAPREDUCE 并行K—means 文本聚类 
基于特征相似度的跨语言事件映射被引量:3
《计算机应用》2016年第A02期247-250,共4页唐亮 席耀一 赵晓峰 易绵竹 
国家973计划项目(2014CB340400;2012CB316303);国家自然科学基金重点项目(61232010);国家自然科学基金面上项目(61173064);国家科技支撑计划项目(2012BAH39B04)
跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了...
关键词:事件相似度 跨语言对齐 特征向量提取 文本聚类 概念扩展 
基于语义空间的藏文微博情感分析方法被引量:11
《计算机应用研究》2016年第3期682-685,共4页袁斌 江涛 于洪志 
国家自然科学基金资助项目(61262054);甘肃省科技重大专项资助项目(1203FKDA033);西北民族大学中央专项资金资助研究生项目(Yxm2014001);国家科技支撑计划资助项目(2014BAK10B03)
藏文微博具有独特的语法特点,传统方法对藏文文本进行情感分类很难取得较好效果。结合藏文句法结构和语义特征向量构建语义特征空间,提出了一种基于语义空间的藏文微博情感分析方法。首先使用句法树生成句法结构并结合语义特征向量构建...
关键词:藏语微博 情感分类 语义空间 文本聚类 语义簇 
一种基于狄利克雷过程混合模型的文本聚类算法被引量:10
《信息网络安全》2015年第11期60-65,共6页高悦 王文贤 杨淑贤 
国家科技支撑计划[2012BAH18B05];国家自然科学基金[61272447]
随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和发布信息的重要渠道,而网络中的这些文本数据,由于文本数目和内容的不确定性,给网络舆情聚类分析工作带来了很大的挑战。在文本聚类分析中,选择合适的聚类数目一直是一个...
关键词:文本聚类 狄利克雷过程混合模型 非参数贝叶斯 吉布斯采样 
融合形态和语义相似度的对话短文本聚类被引量:2
《小型微型计算机系统》2015年第9期1963-1967,共5页陈国梁 贺樑 胡琴敏 杨静 
国家科技支撑项目(2012BAH93F03)资助;上海市科委项目(13511506201)资助
智能对话系统是一种人机交互系统,其产生的对话文本是一种特殊的短文本并蕴含着丰富的信息.这类对话短文本具有口语化、输入错误、同音不同字以及同义不同字等特点,导致现有的经典聚类算法无法进行有效的处理.为了对这类对话短文本进行...
关键词:智能对话系统 短文本 聚类算法 形态相似度 语义相似度 
基于特征关联度的K-means初始聚类中心优化算法被引量:29
《四川大学学报(工程科学版)》2015年第1期13-19,共7页陈兴蜀 吴小松 王文贤 王海舟 
国家科技支撑计划资助项目(2012BAH18B05);国家自然科学基金资助项目(61272447);四川大学青年教师科研启动基金资助项目(2013SCU11017)
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的...
关键词:K-MEANS 特征关联度 初始聚类中心 文本聚类 
多语言网络新闻媒体的聚类分析被引量:1
《信息安全与通信保密》2014年第5期103-107,110,共6页李伟 甘宏 陈明毅 陈秀真 李生红 
国家科技支撑计划资助项目(编号:2012BAH38B04);西安交通大学机械制造系统工程国家重点实验室开放课题(编号:sklms2012005)
互联网已经成为人们发布、获取、共享信息的首选方法,大量多语言媒体信息蕴含着人们关注的热点话题及情感倾向。因此,多语言文本聚类研究对于了解民意倾向、引导舆论具有重要意义。文中提出融合时间影响因子的多语言文本复合聚类算法,...
关键词:多语言文本 文本聚类 时间因子 复合聚类算法 
基于隐主题分析的中文微博话题发现被引量:19
《计算机应用研究》2014年第3期700-704,共5页史剑虹 陈兴蜀 王文贤 
国家科技支撑计划课题资助项目(2012BAH18B05);四川大学青年教师科研启动基金资助项目(2013SCU11017)
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁...
关键词:中文微博 话题发现 隐主题模型 文本聚类 频繁项集挖掘 
检索报告 对象比较 聚类工具 使用帮助 返回顶部