检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1] 山东师范大学信息科学与工程学院,济南250014 [2] 浪潮集团有限公司,济南250101
出 处:《山东师范大学学报(自然科学版)》2015年第2期16-19,共4页Journal of Shandong Normal University(Natural Science)
摘 要:应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.Heritrix and Jsoup are used to design a general - purpose network commodity information extraction system which achieves the crawler and storage of Web information in this paper. The system is composed of three respective modules: web crawling module , web analysis module and database storage module. It: vetlfies the extraction algorithm in the real data on the page. The experimental results show that the system has good recall rate and precision rate, extraction good results.
关 键 词:WEB信息抽取 HTML解析器 Jsoup 网络爬虫 Heritirx
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.146.8