基于Web挖掘的化学物质信息提取应用研究  被引量:3

Application research on chemical information extraction based on web data mining

在线阅读下载全文

作  者:冯硕[1] 李书琴[1] 杨会君[1] 

机构地区:[1]西北农林科技大学信息工程学院,陕西杨凌712100

出  处:《计算机工程与设计》2012年第8期3040-3046,共7页Computer Engineering and Design

基  金:公益性行业(环保)科研专项基金项目(200909086)

摘  要:针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义XML文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。To solve the problems of chemical substance information acquisition from Multi-source website, database update and database query, the technology of web crawler and the method of the wrapper are used to extract data, and methods of task partitioning, dynamic updating inspection and failure retry mechanism is proposed by introducing the user-defined xml file to implement continuous and real-time extraction, exception handling and monitoring of Chemical information in the information source website. Moreover, extracted data is pretreated by regular expression and sorting algorithmand built a comprehensive and accu- rate database of environmental safety of chemicals, finally to updating and querying the original database. A certain degree of reliability, availability, extendibility and maintainability is guaranteed.

关 键 词:WEB信息抽取 任务分割 重试机制 持续抽取 数据预处理 

分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象