基于DOM的Web信息提取  被引量:102

DOM-based Information Extraction for the Web Sources

在线阅读下载全文

作  者:李效东[1] 顾毓清[1] 

机构地区:[1]中国科学院软件研究所,北京100080

出  处:《计算机学报》2002年第5期526-533,共8页Chinese Journal of Computers

摘  要:当前 ,Web已经成为人们获取信息的主要渠道之一 .然而 ,用于表达 Web页面信息的 HTML语言存在着与生俱来的缺点 .HTML 的“标记”只是告诉浏览器软件如何显示所定义的信息 ,却不包含任何语义 .因此由HTML语言所表述的 Web页面经过浏览器分析后只适合人们浏览 ,不适合作为一种数据交换的方式由机器处理 .该文以文档对象模型 DOM为基础 ,把所要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则 ,然后根据提取规则生成 Java类 .生成的 Ja-va类可以作为 Web数据源包装器组成的重要构件 .At present, the Web becomes a major channel for people to obtain information. However, there exist inherent drawbacks in the HTML language used to represent information of Web pages. The HTML tags only tell the browsers how to display the information on the screen, but no any semantics in them. So the HTML document is not suited to be a way of data exchange for computer to process. Based on DOM and inductive learning, the paper presents a novel approach to semi automatically generate Java classes which can be dominant part of a wrapper for Web sources. The paper is an important part of the research on integrated query processing over hetergeneous data sources.

关 键 词:DOM Web 信息提取 归纳学习 文档对象模型 路径表达式 XML INTERNET 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象