检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术信息研究所
出 处:《图书馆论坛》2014年第2期78-83,共6页Library Tribune
基 金:中国科学技术信息研究所科研项目预研基金"面向重复立项检测的多源信息整合机制研究"(项目编号:YY201214);国家自然科学基金项目"大数据挖掘在科技项目查重中的应用研究"(项目编号:71303223);国家社会科学基金项目"网络环境下科技信息资源建设中的质量元数据及评估应用研究"(项目编号:12BTQ016)研究成果之一
摘 要:科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。Checking out similar project is very important to avoid repetition in project approval. However, there is no way to find out similar project effectively tbr the moment. This paper proposes a novel method of detecting scientific projects similitude based on big data mining and multi-source information integration. Using that method, the authors studied the huge data network consisting of the intbrmation about the project, published papers, experts and institutions, as well as the keywords; built up a detection model of project similitude by integrating multi-source information; and adopted the Hadoop to speed up big data mining. This paper presents the detection model of project similitude and its key issues; in hope of providing brand-new thinking and methods for detecting similar projects in scientific project management.
关 键 词:大数据挖掘 多源信息整合 科技项目查重 Hadoop架构
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7