WEB爬虫

作品数:19被引量:99H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:叶允明马范援张岭于水崔志明更多>>
相关机构:苏州大学上海交通大学哈尔滨工业大学杭州安恒信息技术股份有限公司更多>>
相关期刊:《电子学报》《苏州大学学报(工科版)》《计算机工程》《计算机时代》更多>>
相关基金:国家自然科学基金上海市基础研究重大(重点)项目国家教育部博士点基金江苏省高技术研究计划项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
万维网动态文档的爬取分析
《软件》2023年第3期1-4,9,共5页徐天浩 王子扬 沈浩 孙美凤 
2022年江苏省大学生创新创业训练计划资助项目(202213987006Y)。
万维网(下文简写WWW)动态文档是浏览器访问万维网服务器时由应用程序临时生成的文档,是万维网资源中最有价值的部分。为了实现对动态文档中数据的爬取,研究动态文档的生成逻辑分析。在给出万维网原理和分析工具的基础上,提出对动态文档...
关键词:WEB爬虫 动态文档 万维网 
基于ElasticSearch的个人敏感信息检测系统被引量:7
《常熟理工学院学报》2022年第5期33-36,共4页张雯 盛颖怡 张晓晴 孟升祥 周蓓 沈健 
个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容及附件,然后提取其正文并通过ElasticSearch实现全文索引和查询,实现了个人敏感信息的检测.以手机号码为...
关键词:WEB爬虫 ElasticSearch 个人敏感信息泄露 
一种基于web爬虫的网页信息获取系统被引量:1
《中国科技信息》2020年第6期90-91,共2页张洪豪 赵泽宁 姚世春 
天津市教育信息化战略研究课题“天津高校无线联盟安全机制研究”
本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性...
关键词:信息获取系统 爬虫 Python 微信公众号 网址 浏览器 网页 REQUEST 
基于Web爬虫的学习资源采集系统设计与实现被引量:1
《辽宁师专学报(自然科学版)》2019年第4期32-37,共6页刘长琦 
为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现数据可视化展示,最终设计实现学习资源自动采集系统.经过功能测试和性能测试,系统能够满足实际工作需要,...
关键词:WEB爬虫 学习资源采集系统 ECharts 
云环境下Web漏洞检测平台关键技术的研究
《信息技术与信息化》2018年第2期106-110,共5页王祖俪 李翠 
18RKX0703四川省科技厅软科学项目
针对目前Web安全检测系统的缺陷,结合云环境高效,高共享的特性,提出一个基于云环境的Web漏洞检测系统的设计方案。在方案中对有效URL地址的提取进行了改进,减少了重复提取的URL页面,同时也对动态页面的解析进行了处理,在任务的调配上提...
关键词:云技术 WEB爬虫 任务调度 资源聚类 web漏洞 
爬虫技术综述被引量:8
《电脑知识与技术》2017年第9X期213-214,共2页冯俐 
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的...
关键词:广域网分布式 WEB爬虫 主题爬虫 知识主体 
基于众包的社交网络数据采集模型设计与实现被引量:14
《计算机工程》2015年第4期36-40,共5页高梦超 胡庆宝 程耀东 周旭 李海波 杜然 
国家"863"计划基金资助项目"基于媒体大数据的大众信息消费服务平台及应用示范"(SS2014AA012305)
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、...
关键词:社交网络 众包模式 分布式计算 信息采集 WEB爬虫 HADOOP分布式文件系统 
多语种Web新闻语料抓取的通用模型研究被引量:1
《洛阳理工学院学报(自然科学版)》2013年第4期34-39,共6页陈荟慧 舒云星 林丽 
教育部哲学社会科学研究重大课题攻关项目(12JZD014)
Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语料抓取软件模型,模型根据新闻网站中标题页和内容页的模版特点,采用正则表达式和动态字符串方法定义信息...
关键词:正则表达式 多语种 新闻语料 WEB爬虫 
基于WEB挖掘的网络爬虫设计与实现被引量:9
《计算机系统应用》2013年第9期60-63,共4页肖毅 张林 聂笑一 
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬...
关键词:数据挖掘 WEB爬虫 挖掘技术 
基于观点挖掘的产品可用性建模与评价被引量:9
《计算机工程》2012年第16期270-274,共5页易力 王丽亚 
国家自然科学基金资助项目(71072061;70932004)
提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选取与可用性相关的产品特征,使用因子分析法提取影响产品可用性的公共因子,建立产品可用性模型。对产品可...
关键词:观点挖掘 因子分析 产品可用性 词语相似度 WEB爬虫 中文分词 
检索报告 对象比较 聚类工具 使用帮助 返回顶部