基于CSS选择器技术的信息提取系统设计与实现  

在线阅读下载全文

作  者:张晓然 张峰 

机构地区:[1]国家计算机网络应急技术处理协调中心河北分中心

出  处:《电脑编程技巧与维护》2019年第8期101-103,共3页Computer Programming Skills & Maintenance

摘  要:随着互联网的发展,社交媒体的壮大,个人用户和自媒体登上历史舞台,对于网络信息的整理和分析正在成为运营个人账户和自媒体的一种必要技能。现存网页爬虫技术非常成熟,但是对于自媒体和小团队来说功能冗余、复杂度相对较高,并且由于网页爬虫的设计是基于全量网页分析设计的,而自媒体和小团队往往只对有限的网址目标感兴趣,如果采用网页爬虫技术会得到很多无用信息,还需要投入精力清洗数据费时费力。设计实现一种基于CSS选择器技术的目标信息抽取系统,可以通过配置文章特征,利用DOM数据自动提取目标文章,实现更精准的信息收集。另外,由于采用模拟DOM响应的方式获取信息,同步解决了URL动态生成,网页爬虫无法抓取文章URL的问题。

关 键 词:网页爬虫 目标抽取 DOM响应 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象