检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国家计算机网络应急技术处理协调中心河北分中心
出 处:《电脑编程技巧与维护》2019年第8期101-103,共3页Computer Programming Skills & Maintenance
摘 要:随着互联网的发展,社交媒体的壮大,个人用户和自媒体登上历史舞台,对于网络信息的整理和分析正在成为运营个人账户和自媒体的一种必要技能。现存网页爬虫技术非常成熟,但是对于自媒体和小团队来说功能冗余、复杂度相对较高,并且由于网页爬虫的设计是基于全量网页分析设计的,而自媒体和小团队往往只对有限的网址目标感兴趣,如果采用网页爬虫技术会得到很多无用信息,还需要投入精力清洗数据费时费力。设计实现一种基于CSS选择器技术的目标信息抽取系统,可以通过配置文章特征,利用DOM数据自动提取目标文章,实现更精准的信息收集。另外,由于采用模拟DOM响应的方式获取信息,同步解决了URL动态生成,网页爬虫无法抓取文章URL的问题。
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15