检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《中国科技信息》2016年第18期26-27,共2页China Science and Technology Information
摘 要:现如今,基于HTTP协议的POST文本量越来越多,有选择性地抓取这种类型的文本数据可以丰富Web挖掘技术的语料库。通过研究带有persistent cookie的POST请求,设计了一种抓取POST文本数据的方法。在设置好各项参数后,可以抓取大量文档,操作简单,可行性强。在抓取类似POST请求的文本数据时,更改几项参数即可实现批量抓取文本数据的目的。
关 键 词:HTTP协议 文本数据 POST 抓取 设计 WEB挖掘技术 语料库 文档
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38