XML技术在化学深层网数据提取中的应用  被引量:9

Chemical deep Web data extraction with XML-based technology

在线阅读下载全文

作  者:卓流艺[1,2] 李晓霞[1] 郭力[1] 

机构地区:[1]中国科学院过程工程研究所多相反应实验室 [2]中国科学院研究生院,北京100049

出  处:《计算机与应用化学》2006年第11期1137-1141,共5页Computers and Applied Chemistry

基  金:国家自然科学基金(90612015)

摘  要:Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。The Internet chemical databases arc valuable resources that form the chemical deep Web. The data in chemical deep Web is only accessible by a query and result pages generated from databases are mostly in the form of HTML documents for human browsing, not for data exchange in computational applications. In this paper we introduce an approach to extract data from chemical deep Web based on XML technologies, in which HTML documents are first normalized into XHTML and then mapped to the desired XML application format by creating XSLT for the targeted database using XML path expression and regular expressions. The paper describes a methodology for creating XSLT with XML path (XPath) expressions that are capable of extracting data from HTML pages returned from Web based chenfical database searching, where the robustness of the XPath expressions are emphasized, which is critical given the vulnerability of extraction technologies to the continually changing content, structure, and formatting of pages on the chemical Web. We summarize the data extraction rules in terms of their dependence on content, structural, or formatting features, and provide practical tips on how to create robust data extraction patterns for the chemical deep Web. These rules will be used to generate better XSLT documents for data extraction in our ChemDB Portal.

关 键 词:Web数据提取 化学深层网 XML XSLT XPATH 化学数据库 

分 类 号:TP392[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象