文本聚类

作品数:1001被引量:4944H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=中文信息学报x
条 记 录,以下是1-10
视图:
排序:
融合领域知识图谱的跨境民族文本聚类方法
《中文信息学报》2024年第3期84-92,共9页陈春吉 毛存礼 张勇丙 黄于欣 高盛祥 郝鹏鹏 
国家自然科学基金(62166023,61866019);云南省自然科学基金(2019FA023);云南省重大科技专项计划项目(202103AA080015,202002AD080001)。
跨境民族文本聚类任务旨在建立跨境民族不同文本间的关联关系,为跨境民族文本检索、事件关联分析提供支撑。但是跨境民族间文化文本表达差异大,加上文化表达背景缺失,导致跨境民族文本聚类困难。基于此,该文提出了融合领域知识图谱的跨...
关键词:跨境民族 知识图谱 文本聚类 异构图注意力网络 
面向文本聚类的实体—动作关联模型研究被引量:3
《中文信息学报》2018年第5期22-30,共9页刘作国 陈笑蓉 
国家自然科学基金(61363028)
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特...
关键词:文本表示模型 实体—动作关联 句型识别 动作层次分解 
基于语义串特征提取及融合评价的维吾尔文文本聚类被引量:1
《中文信息学报》2017年第5期99-107,共9页吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 
国家自然科学基金(61562083;61262062;61262063)
该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词...
关键词:维吾尔文 语义串抽取 特征评价及选取 向量空间模型 K_means 
基于Spark的大规模文本k-means并行聚类算法被引量:14
《中文信息学报》2017年第4期145-153,共9页刘鹏 滕家雨 丁恩杰 孟磊 
国家自然科学基金(41302203)
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统...
关键词:K-MEANS 并行化 文本聚类 SPARK RDD Hadoop MAPREDUCE 
基于语义和图的文本聚类算法研究被引量:2
《中文信息学报》2016年第5期121-128,共8页蒋旦 周文乐 朱明 
海量网络数据流海云协同实时处理系统(子课题)(XDA06011203);电视商务综合体新业态运营支撑系统开发(2012BAH73F01)
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图...
关键词:文本聚类 完全子图 语义相似度 词向量 
文本聚类的重构策略研究被引量:5
《中文信息学报》2016年第2期189-195,共7页陈笑蓉 刘作国 
国家自然科学基金(61362028)
该文提出面向文本距离并独立于聚类过程的聚类重构策略。提出邻近域的概念并阐述了邻近域规则,设计了高斯加权邻近域算法。利用高斯函数根据样本与聚簇中心的距离为样本赋权,计算聚簇间距。基于邻近域权重对文本聚类的结果实施重构。使...
关键词:文本聚类 聚簇重构 邻近域规则 高斯加权 
高斯加权的重构性K-NN算法研究被引量:1
《中文信息学报》2015年第5期112-116,共5页刘作国 陈笑蓉 
国家自然科学基金(61363028)
该文提出基于高斯加权距离以及聚类重构机制的K-NN文本聚类算法。文章提出K-NN近邻域的概念,通过高斯加权的近邻域算法实施K-NN聚类。利用高斯函数根据样本与聚类中心的距离为样本赋权,计算聚类距离。基于近邻域权重和聚类密度对形成的...
关键词:文本聚类 K-NN算法 高斯加权 近邻域规则 聚类重构 
基于D-S证据理论的微博客蕴含交通信息提取方法被引量:6
《中文信息学报》2015年第2期170-178,共9页张恒才 陆锋 仇培元 
国家863项目(2012AA12A211;2013AA120305);国家自然科学基金(41271408)
微博客消息中经常蕴含大量实时交通信息,有望与现有实时交通信息采集方式形成互补。该文针对微博客消息语义模糊性及用户描述差异性问题,提出了一种微博客消息蕴含交通信息的D-S证据理论提取方法。该方法首先构建微博客消息蕴含交通状...
关键词:微博客 交通信息 文本聚类 证据理论 维基百科 
基于文本聚类的语言韵律和节奏风格特征挖掘被引量:5
《中文信息学报》2014年第6期194-200,207,共8页贺湘情 刘颖 
国家自然科学基金(61171114);教育部自主科研项目(20111081010)
该文以朱自清、汪曾祺和刘亮程的散文作品为语料,旨在从文本的韵律和节奏出发,采用文本聚类的方法来挖掘出新的能够代表作品风格的特征。实验表明,以句末用字韵母的n元组合、分句句长的n元组合、标点符号和整句句长作为风格特征,能成功...
关键词:特征挖掘 韵律 节奏 文本聚类 
基于词义类簇的文本聚类被引量:2
《中文信息学报》2013年第3期113-119,共7页唐国瑜 夏云庆 张民 郑方 
国家自然科学基金资助项目(61272233)
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空...
关键词:文档聚类 文档表示 话题模型 
检索报告 对象比较 聚类工具 使用帮助 返回顶部