文本聚类

作品数:1001被引量:4944H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机应用x
条 记 录,以下是1-10
视图:
排序:
基于事件表示和对比学习的深度事件聚类方法被引量:2
《计算机应用》2024年第6期1734-1742,共9页蒋小霞 黄瑞章 白瑞娜 任丽娜 陈艳平 
国家自然科学基金资助项目(62066007);贵州省教育厅职业教育科研项目(GZZJ-Q2022028);贵州省科技支撑计划项目(黔科合支撑[2023]一般300)。
针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义...
关键词:深度聚类 文本聚类 事件表示 事件结构 对比学习 
基于多层语义融合的结构化深度文本聚类模型被引量:3
《计算机应用》2023年第8期2364-2369,共6页马胜位 黄瑞章 任丽娜 林川 
国家自然科学基金资助项目(62066007)。
近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针...
关键词:深度文本聚类 逐层语义增强 文本语义信息 图神经网络 自监督学习 
基于用户行为特征的多维度文本聚类被引量:6
《计算机应用》2018年第11期3127-3131,3138,共6页黎万英 黄瑞章 丁志远 陈艳平 徐立洋 
国家自然科学基金资助项目(61462011);国家自然科学基金重大研究计划项目(91746116);贵州省重大应用基础研究项目(黔科合JZ字[2014]2001);贵州省自然科学基金资助项目(黔科合基础[2018]1035);贵州省科技重大专项计划(黔科合重大专项字[2017]3002)~~
传统多维度文本聚类一般是从文本内容中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有...
关键词:多维度聚类 度量学习 约束 用户行为特征 
基于加权核非负矩阵分解的短文本聚类算法被引量:2
《计算机应用》2018年第8期2180-2184,2191,共6页曹大为 贺超波 陈启买 刘海 
广东省科技计划项目(2017A040405057;2017A030303074;2016A030303058;2015A020209178);广州市科技计划项目(201604016035;201807010043)~~
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)...
关键词:核方法 短文本聚类 非负矩阵分解 核技巧 迭代优化求解 
融合集群度与距离均衡优化的K-均值聚类算法被引量:3
《计算机应用》2018年第1期104-109,115,共7页王日宏 崔兴梅 
国家自然科学基金资助项目(61502262);山东省研究生教育创新计划项目(SDYY16023)~~
针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类(K-MCD)算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇...
关键词:初始聚类中心 K-均值算法 集群度 距离均衡优化 文本聚类 
基于特征相似度的跨语言事件映射被引量:3
《计算机应用》2016年第A02期247-250,共4页唐亮 席耀一 赵晓峰 易绵竹 
国家973计划项目(2014CB340400;2012CB316303);国家自然科学基金重点项目(61232010);国家自然科学基金面上项目(61173064);国家科技支撑计划项目(2012BAH39B04)
跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了...
关键词:事件相似度 跨语言对齐 特征向量提取 文本聚类 概念扩展 
基于闭频繁项集短文本聚类被引量:1
《计算机应用》2016年第A02期227-229,234,共4页张少磊 王忠 
为应对基于向量空间模型的短文本聚类面临的关键词特征稀疏、高维及样本数量多等挑战,将潜在语义模型应用于短文本分析。首先基于潜在主题模型对实验短文本集进行建模,以K-means算法、Single-Pass算法及近邻传播(AP)算法作为聚类算法对...
关键词:短文本 语义模型 闭频繁项集 聚类算法 F-MEASURE 
基于MapReduce的文本层次聚类并行化被引量:5
《计算机应用》2014年第6期1595-1599,1680,共6页余晓山 吴扬扬 
福建省科技计划重大项目(2011H6016);福建省科技计划重点项目(2011H0028)
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点...
关键词:文本聚类 层次聚类 数据划分 MAPREDUCE 并行计算 
基于LDA的改进K-means算法在文本聚类中的应用被引量:22
《计算机应用》2014年第1期249-254,共6页王春龙 张敬旭 
国家自然科学基金资助项目(61001197;61372182);国家电网公司科技项目(522722130292)
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个...
关键词:主题模型 K-MEANS 聚类中心 文本聚类 隐含狄利克雷分布 
基于文本聚类与分布式Lucene的知识检索被引量:10
《计算机应用》2013年第1期186-188,共3页冯汝伟 谢强 丁秋林 
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规...
关键词:非结构化知识 分布式索引 文本聚类 全文检索 并行检索 
检索报告 对象比较 聚类工具 使用帮助 返回顶部