网页解析

作品数:24被引量:209H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:卜佳俊王灿陈纯廉捷周欣更多>>
相关机构:苏州阔地网络科技有限公司北京奇虎科技有限公司奇智软件(北京)有限公司深圳市腾讯计算机系统有限公司更多>>
相关期刊:《软件导刊》《电子世界》《福建电脑》《电脑开发与应用》更多>>
相关基金:国家自然科学基金北京市自然科学基金国家教育部博士点基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于R语言的上市公司企业社会责任数据采集系统设计
《山西电子技术》2025年第1期70-72,共3页张益明 
数字经济时代下,高效的数据采集非常关键。不同于大部分基于Python的自动数据采集的是,着重介绍R语言环境下上市公司企业社会责任数据采集系统的设计,并测试了多线程技术下的采集效率。所介绍设计方案可以为其他财经数据的抓取提供有效...
关键词:数据采集 R 网页解析 爬虫 数据挖掘 
热销图书爬取数据的BeautifulSoup库解析被引量:2
《福建电脑》2021年第5期133-134,共2页鞠慧 
BeautifulSoup库是python语言关于网络爬虫爬取页面解析的第三方库。它能根据html、xml以及html5lib语法建立解析树,进而高效解析网页内容。本文从基本元素、网页内容遍历提取方法入手介绍BeautifulSoup库的工作原理,并结合电商平台最...
关键词:网络爬虫 网页解析 BeautifulSoup库 
领域本体驱动的招投标网页解析方法被引量:2
《计算机应用》2020年第6期1574-1579,共6页马冬雪 宋设 谢振平 刘渊 
国家自然科学基金资助项目(61872166);江苏省科技计划项目(BE2018056)。
针对正则表达式解析招投标网页效率低下的问题,提出了一种基于招投标领域本体的网页自动化解析新方法。首先,分析了招投标网页文本的结构特征;其次,构建了招投标本体的轻量级领域知识模型;最后,给出一种招投标网页元素语义匹配与抽取算...
关键词:招投标 领域本体 网页解析 元解析模型 知识图谱 
基于Python爬虫技术的网页解析与数据获取研究被引量:16
《现代信息科技》2020年第1期12-13,16,共3页温娅娜 袁梓梁 何咏宸 黄猛 
地震震害防御专项项目;中央高校基本科研业务费专项项目(ZY20180124)。
网络的发展,大数据、人工智能的崛起使数据变得尤为重要,各行各业的发展都需要数据的支持,任何一种深度学习以及算法中都需要大量的数据作为模型来训练才能得出较为准确的结论。文中讨论了网络爬虫实现过程中的主要问题:了解网页基本结...
关键词:网络爬虫 PYTHON 正则表达式 抓包分析 
基于Python的健康数据爬虫设计与实现被引量:9
《软件导刊》2019年第2期60-63,共4页程增辉 夏林旭 刘茂福 
国家社会科学基金重大计划项目(11&ZD189);湖北省大学生创新创业训练计划项目(201610488038)
在网络健康资讯研究中,数据获取是首先要解决的问题,但传统抓取工具无法满足多变的数据源,研究高效爬取健康资讯内容新方法迫在眉睫。基于Python的网络健康资讯抓取方案,整合多个数据源,抓取内容更为全面;利用WebDriver和Python的Selen...
关键词:爬虫 多数据源 PYTHON 网页解析 
面向BIU的网页解析
《科学中国人》2017年第8Z期213-213,共1页程倩楠 谭龙 李浩飞 
随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种...
关键词:结构化 基本信息单元 BIU 解析粒度 DOM解析工具 
基于Selenium WebDriver的自动交互式数据采集技术研究被引量:3
《图书情报导刊》2017年第4期57-61,共5页侯志江 
天津市哲学社会科学研究规划项目"基于网络问答社区开展协作式新型知识服务的实证研究"(项目编号:TJTQ16-003Q)
针对现有数据采集方法的不足,提出了基于Selenium WebDriver的自动化交互式数据采集技术,并以京东某众筹项目话题信息的采集为例,验证了该方案的有效性。实验结果表明,该方案可以解决现代Ajax网页动态生成数据的采集问题,是一种交互功...
关键词:数据采集 WebDriver 网页解析 动态内容获取 
基于模拟登录数据抓取与解析技术的WEB应用系统集成方式研究被引量:1
《北京印刷学院学报》2017年第4期35-37,共3页韦智勇 
"南宁社保局虚拟服务大厅远程取号平台关键技术研究"项目课题(编号:20161026)
目目前不同应用系统集成主要采用开发专用接口、面向SOA服务等传统的集成框架进行,存在周期长、成本高昂、费用高、复杂度高等问题。本文在分析模拟登录web数据抓取与解析技术的原理及实现框架基础上,设计了一种应用系统抓取数据排队算...
关键词:应用系统集成 模拟登录 数据抓取 网页解析 排队算法 
基于Android平台的校园助手APP设计与实现被引量:7
《软件导刊》2016年第12期51-52,共2页罗杰 王兴柱 冷迅 何易升 孙航宇 
湖南省大学生研究性学习与创新性实验计划项目(2015401)
为满足信息查询需求,基于Android平台,使用数据抓包、Cookies模拟登陆、Jsoup数据解析、SQLite数据库等技术设计开发了校园助手系统。系统实现了教务管理接入、成绩查询、空教室查询、课表查询等功能。用户无需注册,使用教务系统学号、...
关键词:校园助手 Jsoup网页解析 教务系统 SQLITE数据库 ANDROID STUDIO 
基于WebDriver的定向网络爬虫设计与实现被引量:9
《软件》2016年第9期94-97,共4页时永坤 
随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为...
关键词:网络爬虫 网页解析 动态内容获取 
检索报告 对象比较 聚类工具 使用帮助 返回顶部