检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北农林科技大学信息工程学院,陕西杨凌712100
出 处:《计算机工程与设计》2012年第8期3040-3046,共7页Computer Engineering and Design
基 金:公益性行业(环保)科研专项基金项目(200909086)
摘 要:针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义XML文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。To solve the problems of chemical substance information acquisition from Multi-source website, database update and database query, the technology of web crawler and the method of the wrapper are used to extract data, and methods of task partitioning, dynamic updating inspection and failure retry mechanism is proposed by introducing the user-defined xml file to implement continuous and real-time extraction, exception handling and monitoring of Chemical information in the information source website. Moreover, extracted data is pretreated by regular expression and sorting algorithmand built a comprehensive and accu- rate database of environmental safety of chemicals, finally to updating and querying the original database. A certain degree of reliability, availability, extendibility and maintainability is guaranteed.
关 键 词:WEB信息抽取 任务分割 重试机制 持续抽取 数据预处理
分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28