HTMLPARSER

作品数:34被引量:90H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨正球黄颖张丽娜张佳强王士同更多>>
相关机构:北京邮电大学江西理工大学暨南大学中山大学更多>>
相关期刊:《辽宁石油化工大学学报》《煤炭技术》《西安工业大学学报》《广西大学学报(自然科学版)》更多>>
相关基金:国家自然科学基金云南省教育厅科学研究基金国家重点实验室开放基金江苏省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
Web信息检索技术算法优化
《信息通信》2018年第10期94-95,共2页李飞龙 
文章主要研究Web信息检索技术算法,通过对检索技术算法TF-IDF以及Lucene排序算法的优化,进一步提升检索的效率。
关键词:垂直信息检索 中文分词 爬虫 LUCENE HTMLPARSER 
互联网视听节目网站信息统一检索
《广播与电视技术》2015年第S1期24-27,共4页王海旭 
本文通过对新媒体视听节目监管中视听节目网站信息检索存在问题的综合分析,提出了自己的解决思路,并利用java开源包HttpClinet和HtmlParser进行javaweb软件设计开发,实现互联网视听节目的统一检索,提高了视听节目网站信息检索的工作效率。
关键词:视听节目网站 信息检索 HttpClinet HTMLPARSER 
IBATIS框架下文本抽取系统的研究
《电子科学技术》2015年第2期214-218,共5页段建勇 高会娟 
国家自然科学基金(No.61103112);国家社会科学基金(No.11CTQ036)
由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,...
关键词:在线评论 HTMLPARSER 信息抽取 IBATIS 抽取模式 
全自动网页信息采集系统被引量:5
《长春理工大学学报(自然科学版)》2015年第2期151-154,共4页徐春凤 王艳春 翟宏宇 
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网...
关键词:HERITRIX HTMLPARSER 网络爬虫 信息提取 
基于搜索引擎的邮址搜集软件开发
《电脑编程技巧与维护》2014年第15期22-25,共4页赵瑞 温正慧 周平 
在百度、谷歌等现有搜索引擎基础上,利用HtmlParser开源框架,用Java语言开发了一种基于搜索引擎关键字的邮址搜集软件。提取邮址的过程包括页面链接的获取和页面邮址的提取。在获取页面链接阶段,首先拼接初始链接,然后获取分页链接,之...
关键词:搜索引擎 邮址提取 HtmlParser框架 正则表达式 
医学学术信息自动采集系统的设计与实现
《现代图书情报技术》2014年第11期73-78,共6页武海东 何晓阳 张精理 
【目的】针对高水平期刊文献的中文导读这类特定的新闻信息,构建一套自动汇聚医学网站新闻系统,实现关键词提取、分类及期刊导航等二次数据加工功能。【应用背景】为图书馆开展主动推送及学科服务提供国外学术研究信息源。【方法】利用H...
关键词:信息采集 学术期刊 HTTPCLIENT HTMLPARSER 信息推送 
一个网络搜索引擎的设计与实现
《福建电脑》2013年第11期159-162,155,共5页白晋伟 
网络搜索引擎是指自动地从网络搜集信息,经过处理后提供给用户查询的系统。设计了一个网络自动搜索引擎,给出了系统的设计框架和各组成模块之间的关系,从系统代码实现的角度详细说明了实现思路和方案,并基于htmlparser开源工具包和SQL S...
关键词:网络搜索引擎 网络爬虫 全文索引 HTMLPARSER 
基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建被引量:1
《情报探索》2013年第9期101-105,共5页华京生 李萍 
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基...
关键词:搜索引擎 数字图书馆 HERITRIX LUCENE HTMLPARSER 
基于Lucene和Heritrix的全文搜索引擎的设计与实现被引量:1
《现代计算机》2013年第22期74-77,80,共5页张宣 刘晓飞 
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。
关键词:全文搜索引擎 LUCENE HERITRIX HTMLPARSER 网络爬虫 
基于页面分类的Web信息抽取方法研究被引量:5
《计算机技术与发展》2013年第1期54-58,共5页成卫青 于静 杨晶 杨龙 
国家自然科学基金资助项目(61170322;71171117);软件开发环境国家重点实验室开放课题(SKLSDE-2011KF-0X);江苏省自然科学基金资助项目(BK2010524)
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通...
关键词:WEB信息抽取 正则表达式 页面分类 HTMLPARSER 结点树 
检索报告 对象比较 聚类工具 使用帮助 返回顶部