HTMLPARSER

作品数:34被引量:90H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨正球黄颖张丽娜张佳强王士同更多>>
相关机构:北京邮电大学江西理工大学暨南大学中山大学更多>>
相关期刊:《辽宁石油化工大学学报》《煤炭技术》《西安工业大学学报》《广西大学学报(自然科学版)》更多>>
相关基金:国家自然科学基金云南省教育厅科学研究基金国家重点实验室开放基金江苏省自然科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机光盘软件与应用x
条 记 录,以下是1-1
视图:
排序:
基于Heritrix和HTMLParser的网页商品信息提取的研究
《计算机光盘软件与应用》2012年第8期190-191,共2页刘文浩 谢韬 吴进 
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。
关键词:HERITRIX HTMLPARSER 网络爬虫 信息提取 垂直搜索 
检索报告 对象比较 聚类工具 使用帮助 返回顶部