抓取HTTP协议POST文本数据方法设计  被引量:6

在线阅读下载全文

作  者:刘一峰[1] 刘冰[1] 郭良动 

机构地区:[1]中国矿业大学(北京)机电与信息工程学院

出  处:《中国科技信息》2016年第18期26-27,共2页China Science and Technology Information

摘  要:现如今,基于HTTP协议的POST文本量越来越多,有选择性地抓取这种类型的文本数据可以丰富Web挖掘技术的语料库。通过研究带有persistent cookie的POST请求,设计了一种抓取POST文本数据的方法。在设置好各项参数后,可以抓取大量文档,操作简单,可行性强。在抓取类似POST请求的文本数据时,更改几项参数即可实现批量抓取文本数据的目的。

关 键 词:HTTP协议 文本数据 POST 抓取 设计 WEB挖掘技术 语料库 文档 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象