中文文本聚类

作品数:27被引量:163H指数:8
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:徐建锁李若鹏马国俊杨彩莲李艳梅更多>>
相关机构:上海交通大学西安电子科技大学南开大学常州大学更多>>
相关期刊:《计算机技术与发展》《计算机工程与设计》《计算机与数字工程》《中文信息学报》更多>>
相关基金:国家自然科学基金江苏省自然科学基金湖南省教育厅科研基金中国地震局地震科技星火计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于改进K-means的电商页面数据分析与挖掘被引量:6
《软件》2023年第6期35-43,共9页叶昊 缪宜恒 张宏俊 
江苏省研究生科研与实践创新计划项目(KYCX22_1019)。
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一...
关键词:电商页面 数据挖掘 数据预处理 中文文本聚类 
可变属性粒度的中文文本概念格聚类研究
《电脑知识与技术》2019年第9Z期27-28,共2页吴湘华 曹丽君 
湖南省教育厅科学研究项目(16C0300)
传统的中文文本聚类方法需要将半结构化或非结构化的数据构建数学模型,一般情况下都要进行降维处理,这些操作均会带来一定失真,影响聚类的准确性和效果。该文以待聚类文本为研究对象,以文本特征词为属性,引入形式概念分析理论,采用概念...
关键词:中文文本聚类 形式概念分析 概念格 可变粒度 特征词 
DMK算法在中文文本聚类中的应用被引量:1
《信息通信》2018年第7期1-4,共4页季圣洁 葛万成 
上海市科学技术委员会科研项目<基于个性化推荐技术的航空移动社区服务模式研究与应用>(项目号:14DZ1101400)
对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distan...
关键词:K-MEANS DMK算法 文本聚类 分词 文本挖掘 
基于句法结构分析的中文文本聚类方法研究被引量:6
《计算机与数字工程》2018年第5期933-935,1067,共4页尹积栋 谢茶花 彭崧 刘红 曾昭虎 
江西省教育厅科学技术研究项目"基于句法结构分析的文本聚类方法及应用研究"(编号:GJJ151492)资助
现有的K-means聚类算法大多语料载体都是数字,难以应用到中文文本聚类分析中。论文提出了一种新的基于句法结构分析的文本聚类方法,该方法能够准确地对中文文本进行语义相似度计算和聚类分析。该方法融合了改进K-means算法的优点,增加...
关键词:文本聚类 K-MEANS 句法结构分析 
中文文本聚类常用停用词表对比研究被引量:53
《数据分析与知识发现》2017年第3期72-80,共9页官琴 邓三鸿 王昊 
中国地震局星火计划攻关项目"面向地震应急的空间智能决策方法研究"(项目编号:XH15019);江苏省自然科学基金项目"面向专利预警的中文文本学习研究"(项目编号:BK20130587)的研究成果之一
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用...
关键词:文本聚类 停用词 K—means 
基于语义相关度的中文文本聚类方法研究被引量:9
《情报理论与实践》2016年第2期129-133,共5页杜坤 刘怀亮 王帮金 
国家自然科学基金项目"基于复杂网络的中文文本语义相似度研究"的成果;项目编号:71373200
[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相...
关键词:维基百科 语义相关度 文本相似度 文本聚类 
深度词汇网络学习的文本聚类研究
《北京化工大学学报(自然科学版)》2015年第2期107-112,共6页易军凯 冯佳明 万静 
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复...
关键词:词汇网络 深度学习网络 中文文本聚类 
一种新的Web中文文本聚类方法研究被引量:3
《计算机应用与软件》2013年第12期222-225,287,共5页叶宇飞 安世全 代劲 
传统的文本聚类缺少语义信息,文本的特征向量高维稀疏,忽略了Web文本的特殊性。为了解决这些问题,提出一种Web中文文本聚类方法。在基于知网(HowNet)的概念空间基础上过滤非名词,分析文本中重要词汇的语义,对标签特征集与正文特征集进...
关键词:WEB文本聚类 特征降维 知网 文本相似度 
基于语境和语义的中文文本聚类算法研究
《科技信息》2010年第35期I0029-I0030,共2页吴勇 周军 
湖南省教育厅资助科研项目;项目编号09C1163
基于语境和语义的聚类算法,一方面从领域、情景、背景三方面提取特征词,建立语境框架文本特征,另一方面计算关键词TF-IDF权重值,形成关键词VSM向量空间。将两方面得到的特征项分别存储,构造特征空间。分两次聚类,第一次聚类对语境框架...
关键词:语境 语义 特征提取 VSM 聚类 
基于LLE-k均值方法的中文文本聚类
《计算机与数字工程》2010年第11期10-12,21,共4页冯燕 王洪元 程起才 刘爱萍 
国家自然科学基金项目(编号:60973094);江苏省自然科学基金项目(编号:BK2009538);江苏省高校自然科学基金项目(编号:08KJB520002;09KJB520004);国家基金项目(编号:61070121)资助
文本聚类中,文本特征向量的高维特性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数简约。LLE算法利用线性重构的局部对称性找出高维数据空间中的非线性结构,并在保持各数据点临近位置关系情况下,把高维空间数据点映射为...
关键词:文本聚类 LLE 维数简约 K-MEANS 
检索报告 对象比较 聚类工具 使用帮助 返回顶部