HTMLPARSER

作品数:34被引量:90H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨正球黄颖张丽娜张佳强王士同更多>>
相关机构:北京邮电大学江西理工大学暨南大学中山大学更多>>
相关期刊:《辽宁石油化工大学学报》《煤炭技术》《西安工业大学学报》《广西大学学报(自然科学版)》更多>>
相关基金:国家自然科学基金云南省教育厅科学研究基金国家重点实验室开放基金江苏省自然科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机技术与发展x
条 记 录,以下是1-2
视图:
排序:
基于页面分类的Web信息抽取方法研究被引量:5
《计算机技术与发展》2013年第1期54-58,共5页成卫青 于静 杨晶 杨龙 
国家自然科学基金资助项目(61170322;71171117);软件开发环境国家重点实验室开放课题(SKLSDE-2011KF-0X);江苏省自然科学基金资助项目(BK2010524)
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通...
关键词:WEB信息抽取 正则表达式 页面分类 HTMLPARSER 结点树 
基于Heritrix的面向特定主题的聚焦爬虫研究被引量:7
《计算机技术与发展》2012年第2期65-68,共4页朱敏 罗省贤 
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效...
关键词:聚焦爬虫 HERITRIX BKDRHash算法 HTMLPARSER 搜索引擎 
检索报告 对象比较 聚类工具 使用帮助 返回顶部