文档聚类

作品数:133被引量:617H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刘远超王晓龙刘秉权徐志明关毅更多>>
相关机构:华中科技大学北京大学哈尔滨工业大学天津大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金吉林省科技发展计划基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于大数据与集成方法的文档聚类研究
《计算机与数字工程》2025年第1期152-157,208,共7页郑芳 李志威 王巍 
武汉市市科技局知识创新专项基础研究项目“基于动态视觉识别技术的药品调剂核对解决方案”(编号:2022010801010522)资助。
聚类是无监督机器学习中广泛使用的技术,但是由于通常数据标签的不可用,因此对于其结果的质量评估是一个棘手的问题。尽管之前有许多方法可以验证聚类质量,但单一的度量指标无法做到全面的评估。此外,大数据中通常包含相当比例的噪声,...
关键词:集成方法 数据挖掘 文档聚类 模糊逻辑 
基于跨层级多视角特征的多语言事件探测
《计算机科学》2024年第5期208-215,共8页张志远 张维彦 宋雨秋 阮彤 
多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻...
关键词:多语言预训练模型 多语言事件探测 新闻文档聚类 加权相似度 增量聚类 
融合密度和划分的文本聚类算法
《计算机与数字工程》2024年第1期178-183,共6页刘龙 刘新 蔡林杰 唐朝 
网络犯罪侦查湖南省普通高校重点实验室开放课题项目(编号:2018WLFZZC003)资助。
文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中...
关键词:文档聚类 BERT K-均值算法 密度 最远距离 
融合统计和结构相似度的文档聚类
《信息技术与信息化》2021年第4期132-135,共4页郑重 
提出了一个新的文档聚类框架,在这个框架下,从统计和结构两个方面对词条之间的交互进行建模。首先根据观测词条推断隐含词条,补充和细化文档中每个词条的权重。基于丰富的文档向量表示方法,便可以轻松地获得统计语义的相似度。同时,我...
关键词:文档聚类 相似度 词条权重 结构匹配 
基于共识和分类改善文档聚类的识别信息方法被引量:6
《计算机应用》2020年第4期1069-1073,共5页王留洋 俞扬信 陈伯伦 章慧 
国家自然科学基金资助项目(61602202)。
不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(C...
关键词:共识聚类 文档聚类 识别信息 簇标签 文本分类器 
2006—2016年管理科学与工程研究热点主题研究——基于LDA概率主题模型分析
《珞珈管理评论》2018年第4期161-171,共11页陈植元 杨海霞 王先甲 
国家自然科学基金“集中与分散决策模式下的随机动态双边匹配策略研究”(项目批准号:71871166)和“复杂网络上演化博弈合作形成机理与控制策略(项目批准号:71871171);武汉大学自主科研项目(人文社会科学)研究成果;“中央高校基本科研业务费专项资金”资助
文章旨在通过对管理科学与工程领域的科技文献(限中文文献)进行统计,运用数据挖掘方法,探讨该领域近十年研究主题的变化规律,从而揭示我国管理科学与工程学科研究发展趋势。以2006—2016年管理科学与工程领域12本期刊中21267篇中文科技...
关键词:LDA 文本挖掘 热点主题 文档聚类 
归并奇异值分解:一种快速更新隐含语义索引的方法
《华东理工大学学报(自然科学版)》2018年第3期397-403,共7页黄明 林家骏 
隐含语义索引(LSI)是一种解决信息检索中二义性问题和大规模文档分类的文档索引方法。为了提高LSI效率,应对大数据场景下文档量爆发式增长的问题,提出了一种通过归并奇异值分解来实现LSI快速更新的方法。该方法利用p-边宽单边对角矩阵...
关键词:信息检索 隐含语义索引 奇异值分解 文档聚类 QR分解 箭头型矩阵 
基于主题模型的科技报告文档聚类方法研究被引量:16
《图书情报工作》2018年第4期113-120,共8页曲靖野 陈震 郑彦宁 
吉林省教育科学“十三五”规划项目“项目教学法在高校基础计算机教学中的应用研究”(项目编号:GH170061)研究成果之一
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基...
关键词:科技报告 主题模型 LDA 文本聚类 
基于DBSACN聚类算法的XML文档聚类
《电子测试》2017年第8期72-73,共2页张鑫 
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度...
关键词:XML文档 文档聚类 DBCSAN聚类算法 结构相似度 
机器翻译自动评价中领域知识复述抽取研究被引量:9
《北京大学学报(自然科学版)》2017年第2期230-238,共9页张丽林 李茂西 肖文艳 万剑怡 王明文 
国家自然科学基金(61462044;61462045;61662031;61562042);江西省自然科学基金(20151BAB207025);江西省教育厅科技项目(GJJ150352)资助
针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特...
关键词:复述 机器译文自动评价 语言模型 MARKOV网络 文档聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部