文本聚类

作品数:1002被引量:4956H指数:28
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:黄瑞章徐森章成志秦永彬王正欧更多>>
相关机构:北京邮电大学贵州大学哈尔滨工业大学华南理工大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=国家重点基础研究发展计划x
条 记 录,以下是1-10
视图:
排序:
一种面向医学文本数据的结构化信息抽取方法被引量:16
《小型微型计算机系统》2019年第7期1479-1485,共7页杨兵 聂铁铮 申德荣 寇月 于戈 
国家重点研究发展计划项目(2018YFB1003404)资助;国家自然科学基金项目(61672142,61402213,U1435216)资助;中央大学基础研究基金项目(N150408001-3,N150404013)资助
医学文本作为医疗领域重要的信息载体,为临床诊断和病理学研究提供了重要的数据支持,然而使用自然语言编写的文本数据往往是非结构化的,不便于机器理解和自动化处理.对于中文的医学文本数据而言,由于专业性强,需要丰富的领域知识,并且...
关键词:结构化信息抽取 文本聚类 关键词提取 语义依存 
基于LDA的英汉维文本聚类系统的设计与实现被引量:2
《现代电子技术》2019年第3期122-126,共5页田亮 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 
国家重点基础研究发展计划(2014CB340506);国家自然科学基金(61331011);国家自然科学基金(61662077);国家自然科学基金(61262060);国家自然科学基金(61462083);新疆多语种信息技术实验室开放课题(2016D03023);"自治区青年科技创新人才培养工程"青年博士项目(QN2015BS004)~~
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文...
关键词:文本聚类 LDA模型 多语言 文本特征提取 相似度聚类 权重 
基于特征相似度的跨语言事件映射被引量:3
《计算机应用》2016年第A02期247-250,共4页唐亮 席耀一 赵晓峰 易绵竹 
国家973计划项目(2014CB340400;2012CB316303);国家自然科学基金重点项目(61232010);国家自然科学基金面上项目(61173064);国家科技支撑计划项目(2012BAH39B04)
跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了...
关键词:事件相似度 跨语言对齐 特征向量提取 文本聚类 概念扩展 
搜索引擎索引网页集合选取方法研究被引量:9
《计算机研究与发展》2014年第10期2239-2247,共9页茹立云 李智超 马少平 
国家"九七三"重点基础研究发展计划基金项目(2015CB358700);国家自然科学基金项目(60903107;61073071)
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的...
关键词:搜索引擎 内容签名 文本聚类 机器学习 线性回归模型 
层次非负矩阵分解及在文本聚类中的应用被引量:2
《计算机科学与探索》2011年第10期904-913,共10页景丽萍 朱岩 于剑 
国家自然科学基金No.60905028;90820013;60875031;61033013;国家重点基础研究发展规划(973)No.2007CB311002;中央高校基本科研业务费专项资金No.2010RC029;2011JBM030;国家教育部留学回国人员科研启动基金~~
文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是...
关键词:文本聚类 非负矩阵分解 层次聚类 
结合文本聚类和文本检索的语料选取方法
《高技术通讯》2010年第12期1224-1228,共5页何峰 丁晓青 
973计划(2007CB311004)资助项目
为了克服用应用相关的文本数据进行语音识别、智能输入等各种自然语言处理中在有些情况下因很难收集到充足的相关数据和缺乏应用相关的训练数据带来的困难,提出了一种通过结合非监督文本聚类和文本检索技术实现相关语料选取的新方法。...
关键词:文本聚类 文本检索 Kullback.Leibler距离 统计语言模型 
一种基于语料特性的聚类算法被引量:8
《软件学报》2010年第11期2802-2813,共12页曾依灵 许洪波 吴高巍 白硕 
国家自然科学基金No.60933005;国家重点基础研究发展计划(973)Nos.2007CB311100;2004CB318109;国家高技术研究发展计划(863)No.2007AA01Z441~~
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备...
关键词:CADIC(clustering algorithm based on the DISTRIBUTIONS of INTRINSIC clusters) 文本聚类 模型不匹配 重标度 信息检索 
领域知识在文本聚类应用中的机遇和挑战被引量:7
《计算机工程与科学》2010年第6期88-91,121,共5页景丽萍 恽佳丽 于剑 
国家973计划资助项目(2007CB311002);国家自然科学基金资助项目(90820013;60875031;60905028)
最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐...
关键词:领域知识 文本聚类 知识表示 文本表示模型 
一种基于空间映射及尺度变换的聚类框架被引量:2
《中文信息学报》2010年第3期81-88,共8页曾依灵 许洪波 吴高巍 程学旗 白硕 
国家973基础研究计划项目资助(2007CB311100);国家自然科学基金重点项目资助(60933005)
传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映...
关键词:计算机应用 中文信息处理 文本聚类 空间映射 尺度变换 模型不匹配 
基于复杂网络社团划分的Web services聚类被引量:1
《计算机应用研究》2009年第6期2299-2302,共4页欧有远 张海粟 孟晖 李德毅 
国家“973”重点基础研究资助项目(2007CB310800);国家自然科学基金资助项目(60675032)
以单词为网络节点,由自然语言描述中单词的同现频率确定单词间的相关度并作为边的权值,构建自然语言描述集合的加权单词网络模型。利用Newman快速算法对加权单词网络模型进行社团划分,得到单词聚类结果;根据单词聚类结果与服务之间的映...
关键词:WEB服务 聚类 复杂网络 社团划分 文本聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部