赵华茗

作品数:13被引量:139H指数:7
导出分析报告
供职机构:中国科学院文献情报中心更多>>
发文主题:虚拟技术细粒度开源云计算HADOOP更多>>
发文领域:自动化与计算机技术文化科学天文地球更多>>
发文期刊:《地质力学学报》《电信科学》《图书情报工作》《数据分析与知识发现》更多>>
所获基金:国家社会科学基金国家自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
依存句法特征的科研命名实体识别算法被引量:7
《图书情报工作》2020年第11期108-115,共8页赵华茗 钱力 余丽 
中国科学院文献情报能力建设专项项目"文献情报'数据湖’及开放式大数据框架建设"(项目编号:院1852)与国家科技图书文献中心专项任务"多源数据增值与知识计算方法研究"(项目编号:K180201001)研究成果之一。
[目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工...
关键词:依存句法分析 科研命名实体 实体识别 关系抽取 
基于均值漂移算法的文本聚类数目优化研究被引量:11
《数据分析与知识发现》2019年第9期27-35,共9页赵华茗 余丽 周强 
国家社会科学基金项目“基于开放获取学术期刊的资源深度整合与揭示研究”(项目编号:16BTQ025);中国科学院文献情报中心文献情报能力建设专项项目“文献情报‘数据湖’及开放式大数据框架建设”(项目编号:院1852)的研究成果之一
【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指...
关键词:均值漂移 文本聚类 聚类数 聚类有效性 
基于深度学习的文本中细粒度知识元抽取方法研究被引量:39
《数据分析与知识发现》2019年第1期38-45,共8页余丽 钱力 付常雷 赵华茗 
国家自然科学基金项目"中文网络文本的地理实体语义关系标注与评价"(项目编号:41801320);国家社会科学基金项目"基于开放获取学术期刊的资源深度整合与揭示研究"(项目编号:16BTQ025);中国科学院文献情报中心青年创新团队项目"基于机器学习的科研指纹识别方法研究"(项目编号:馆1724)的研究成果之一
【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制...
关键词:知识元抽取 命名实体识别 深度学习 BOOTSTRAPPING LSTM-CRF 
基于深度学习的创新主题智能挖掘算法研究被引量:5
《数据分析与知识发现》2019年第1期46-54,共9页付常雷 钱力 张华平 赵华茗 谢靖 
中国科学院青年创新促进会(项目编号:院1721)和创新构想话题生成机器人研发(项目编号:JW1701)的研究成果之一
【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行知识关联计算,计算结果输入一个用...
关键词:创新主题 深度学习 Seq2Seq 智能挖掘 
大型网站的架构研究及解决方案被引量:3
《计算机科学》2017年第S1期587-590,共4页周强 谢靖 赵华茗 
基于开放获取学术期刊的资源深度整合与揭示研究(16BTQ025)资助
随着互联网业务的发展,网站规模越来越大,各种技术被提出以用于提升网站的性能、可用性、伸缩性、扩展性、安全性。在分析影响性能、可用性、伸缩性、扩展性和安全性等架构因素的基础上,提出了一套网站架构解决方案,并为图书馆集成发现...
关键词:性能 可用性 伸缩性 扩展性 安全 
国内外开放学术资源整合研究现状述评与比较被引量:7
《图书情报工作》2017年第6期122-133,共12页赵华茗 钱力 谢靖 
国家社会科学基金项目"基于开放获取学术期刊的资源深度整合与揭示研究"(项目编号:16BTQ025)研究成果之一
[目的 /意义]为开展开放学术资源整合服务建设提供参考与借鉴。[方法 /过程]分别对国内外开放学术资源整合方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在开放学术资源整合构建的理论、技术方法与工具、资源再利用和版...
关键词:开放获取 学术资源 资源整合 
分布式环境下的文本聚类研究与实现被引量:3
《现代图书情报技术》2015年第1期82-88,共7页赵华茗 
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的...
关键词:分布式环境 聚类 文本聚类 HADOOP Mahout 
分布式环境下的文档相似度研究与实现被引量:6
《现代图书情报技术》2011年第7期14-20,共7页赵华茗 
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并...
关键词:HADOOP Hive 相似度 非结构化 
搭建基于云计算的开源海量数据挖掘平台被引量:11
《现代图书情报技术》2010年第10期76-81,共6页赵华茗 
通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。...
关键词:云计算 海量数据挖掘 虚拟技术 分布式计算 XEN Cloudera HadooD 
基于XENServer的数字图书馆云服务平台实现研究被引量:17
《电信科学》2010年第S1期33-38,共6页赵华茗 李春旺 周强 
云计算促进了信息服务的规模化、集约化和专业化发展,具有很广泛的应用前景。本文以国家科学图书馆云服务平台为例,介绍基于虚拟技术的数字图书馆云服务平台的设计与实现,详细论述云计算如何在数字图书馆建设中实现计算资源的集约化和...
关键词:云服务平台 虚拟技术 XENServer 数字图书馆 
检索报告 对象比较 聚类工具 使用帮助 返回顶部