NUTCH

作品数:113被引量:260H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:聂琰宋光慧张敏曹奇峰张涛更多>>
相关机构:北京邮电大学华南理工大学武汉大学宁波大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家科技支撑计划国家高技术研究发展计划广西壮族自治区自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
Nutch在中医药信息融合中的应用研究
《现代计算机》2023年第3期9-15,共7页区卓越 覃姜维 赵峰 孙晓翠 
广东省大学生创新创业训练计划平台项目(S202110573027);广东省中医药局科研项目(20232090);广东省青年创新人才项目(2017KQNCX108);广州市科技计划项目(202102080300)。
针对数字时代尤其是疫情时代下民众对中医药信息需求的日益增加,亟需寻求新的解决方案以促进中医药信息融合的现代化发展,为此在Nutch的基础上设计并实现了中医药信息搜索引擎。首先,对Nutch的系统结构进行了介绍,包括其工作流程、评分...
关键词:中医药现代化 中医药信息化 医药信息 汉字识别 搜索引擎 
网络爬虫技术在农业生产数据获取中的研究和应用
《农业工程技术》2021年第3期49-51,共3页王晓楠 李杨 张海峰 张宇 杨雪峰 
课题名称:基于“网络爬虫”的数据智能获取技术研究。
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实...
关键词:爬虫 分布式 Nutch框架 二级哈希 
分布式爬虫的研究与实现被引量:9
《计算机技术与发展》2020年第2期192-196,共5页马蕾 冯锡炜 窦予梓 高天铸 朱睿 吴衍兵 
辽宁省自然科学基金(20180550130)
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的K...
关键词:分布式集群 NUTCH SOLR 企业官网 
基于Nutch的多源社交媒体情报采集系统被引量:1
《北京邮电大学学报(社会科学版)》2019年第5期85-92,共8页傅魁 覃桂双 
教育部人文社会科学研究规划基金项目(17YJA870006);湖北省自然科学基金项目(2018CFB564)
以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具Nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录...
关键词:NUTCH 社交媒体情报 多源情报采集 内容解析 模拟登录 
网络数据采集框架Nutch及其应用研究被引量:2
《中国管理信息化》2019年第18期167-169,共3页周飚 
随着大数据与云计算、物联网、人工智能进一步融合,各行各业产生了海量电子化数据,建立大数据应用首要解决的问题就是采集数据,其中,Apache Nutch是用于数据采集的爬虫框架。为采集若干人才招聘网站职位需求数据,采用MySQL数据库进行数...
关键词:NUTCH 分布式 爬虫框架 CRAWLER Quartz排程 
基于Nutch的就业垂直搜索引擎研究被引量:3
《计算机技术与发展》2019年第2期207-211,共5页肖红玉 贺辉 黄灼东 蔡昭阳 
广东省自然科学基金-博士启动(2014A030310415);广东省教育研究课题(GDJY-2015-C-b048)
针对通用搜索引擎专业性不够、查准率较低的问题,基于Nutch开源搜索引擎,采用基于本地词库和动态加载词库的正向迭代最细粒度切分算法实现中文分词。基于特征词和元数据标签的空间向量模型实现就业领域主题相关性判定,基于MapReduce引...
关键词:垂直搜索引擎 LinkRank算法 就业 NUTCH 
面向医疗的垂直搜索引擎的研究与开发被引量:3
《科技与创新》2018年第13期17-20,共4页姚奕伸 张旖旎 周婷 陈恩泽 陈晓星 
看病就医是人类的基本需求之一,而医疗信息对于人们就医起到了指导性的作用。现如今,网络已经成为人们获取信息的重要途径之一,鉴于此,在对医疗大数据调研的基础上,运用垂直搜索引擎技术构建了一个实用、可靠的医疗信息检索平台,称其为...
关键词:医疗 垂直搜索引擎 NUTCH 准确率 召回率 
基于Nutch的Web论坛分块采集系统被引量:1
《图书馆学研究》2017年第7期56-60,共5页程杜新 傅魁 
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块...
关键词:NUTCH WEB论坛 信息采集 分块解析 
基于Nutch爬虫的电商交易价格统计研究被引量:3
《重庆理工大学学报(自然科学)》2017年第1期152-157,共6页阳黎明 苏理云 
重庆市教委资助项目(15SKG136);重庆理工大学研究生创新基金资助项目(YCX2015228);重庆理工大学高等教育教学改革研究项目(2014ZD03);全国统计科学研究资助项目(2014LY069)
将电商交易数据纳入价格指数架构是目前统计工作关注的焦点。应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算...
关键词:电商交易数据 分布式集群 NUTCH 价格指数 
基于Nutch的节能减排垂直搜索引擎设计与实现被引量:1
《计算机工程与设计》2016年第9期2565-2570,共6页袁志祥 张飞 鲍威 孙国华 刘明 
国家科技支撑计划基金项目(2012BAK30B04)
为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于...
关键词:节能减排 垂直搜索引擎 NUTCH 向量空间模型 朴素贝叶斯 
检索报告 对象比较 聚类工具 使用帮助 返回顶部