聚焦爬虫

作品数:70被引量:351H指数:8
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:赵朋朋彭浩林玲周立柱崔志明更多>>
相关机构:武汉大学苏州大学北京交通大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划陕西省教育厅科研计划项目国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
文本摘要技术在网络爬虫中的应用
《沈阳化工大学学报》2022年第1期82-89,共8页高巍 马辉 李大舟 王淮中 
辽宁省教育厅科学技术研究项目(L2016011);辽宁省教育厅科学研究项目(LQ2017008);辽宁省博士启动基金项目(201601196)。
传统的聚焦爬虫不能很好地处理所爬取的数据,很难从原始数据中提取有价值的信息,同时,大量冗余的数据对计算机的存储能力带来了挑战.本研究提出了一种基于抽取式文本摘要技术的爬虫算法,将改进的TextRank算法应用于网络爬虫中,从而解决...
关键词:TextRank算法 Glove模型 K-MEANS算法 抽取式文本摘要 聚焦爬虫 
基于互联网的爬虫程序研究
《计算机应用文摘》2022年第2期73-75,102,共4页郭银芳 韩凯 郭峰明 王国升 李雪萌 
太原学院大学生创新创业训练计划项目(TYX2021020)。
随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据...
关键词:聚焦爬虫 搜索策略 scrapy框架 全站爬取 分布式爬取 
详解4种类型的爬虫技术被引量:1
《计算机与网络》2021年第6期37-38,共2页傅一平 
聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性。基于链接评价的爬行策略,主要是以Web页面作为半结构化文档,其中拥有很多结构信息可用于评价链接...
关键词:主题网络爬虫 聚焦爬虫 WEB结构 聚焦网络爬虫 爬行策略 页面内容 爬虫技术 链接价值 
内河航道综合信息服务中助航数据获取的方法研究与应用
《中国水运(下半月)》2021年第2期10-12,共3页周璐 杨保岑 李伟凡 张秋实 
国家重点研发计划资助(项目编号:2018YFB1600400)
本文通过研究内河航道综合信息服务中多源助航数据获取的关键技术,从数据源分析、API及web数据聚焦抓取应用等方面,阐明航道助航信息获取对象、获取方式、存储数据库等要素关系,并以长江航道图APP为例提出航标、水位、航道通告、天气、...
关键词:内河航道综合信息服务 电子航道图 聚焦爬虫 助航数据融合 
一种基于Heritrix 可配置主题的聚焦爬虫方法被引量:1
《楚雄师范学院学报》2020年第6期124-131,共8页王松 刘洪基 叶晓波 
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬...
关键词:聚焦爬虫 可配置主题 HERITRIX 
基于Python的聚焦爬虫的初步设计与实现被引量:6
《现代制造技术与装备》2020年第12期30-31,共2页杜超 
网络爬虫主要分为通用爬虫和聚焦爬虫,前者通常指搜索引擎的爬虫,后者是指针对特定网站的爬虫。聚焦爬虫用于弥补通用搜索引擎的缺陷,应用在定向获取信息的检索工具即垂直搜索引擎上。以豆瓣图书信息获取为例,介绍网络爬虫的工作原理、...
关键词:网络爬虫 PYTHON lxml 
建筑类网站聚焦爬虫策略研究被引量:3
《科技创新与应用》2020年第33期1-5,10,共6页林汨圣 王扬 
在工作和研究中持续更新大量的资料和数据是建筑师的职业基础。传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分。国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位...
关键词:聚焦爬虫 网络爬虫 HTML PYTHON 建筑学 
面向网站群的主题爬虫研究被引量:3
《软件导刊》2020年第8期109-112,共4页徐昊 沈江明 
云南省高校数据化运营管理工程研究中心建设项目(2017)。
聚焦爬虫(Focused Crawler)又称为主题爬虫,是从网络上获取特定主题数据的有效工具。为了避免传统聚焦爬虫预训练主题相关性分类器的繁复工作,提出一种自举聚焦爬虫(Bootstrapping Focused Crawler),用于从特定网站群中收集主题数据。...
关键词:爬虫技术 信息检索 自举聚焦爬虫 
基于语义相似度的聚焦爬虫研究被引量:2
《现代信息科技》2020年第8期1-3,8,共4页林春杰 金苗娟 
国家自然科学基金项目(61272015,61602231);河南省科技开放合作项目(172106000077);河南省高等学校重点科研项目(16A520022);河南省高等学校青年骨干教师培养计划(2017GGJS134);河南省科技创新杰出人才(184200510011);河南省高等学校重点科研项目计划(14B520061)。
实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架.该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度.通...
关键词:聚焦爬虫 语义相似度 本体 搜索引擎 
基于多元数据信息获取的关键技术研究被引量:4
《长春理工大学学报(自然科学版)》2020年第1期97-103,共7页李莉 刘淼 冯嘉辉 
随着近年来互联网信息的爆炸式增长,通用网络爬虫成为人们获取信息的有效手段。但其查准率却无法保证。针对此问题,提出一种基于改进BM25算法和SVM算法的聚焦爬虫,用于解决通过网络爬虫的缺点。聚焦爬虫分为网页爬取模块、网页预处理模...
关键词:聚焦爬虫 BM25 SVM 向量空间模型 
检索报告 对象比较 聚类工具 使用帮助 返回顶部