一种基于未知结构网页抽取本体的方法被引量：3

Method for Ontology Extraction Based on Unknown Structure Web

机构地区：[1]复旦大学计算机与信息技术系,上海200433 [2]蚌埠坦克学院计算机室,蚌埠233013

出　　处：《计算机科学》2009年第2期186-189,共4页Computer Science

摘　　要：在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据。提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式。结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据。To the user,the structure of the data in HTML tables on the Web is usually unknown,thus,the data ot interest can＇t be queried directly. We presented a solution to this problem. The solution entails the understand of table element,data integration and wrapper creation- Table unstanding is to find interest table, recognize attribute and value in the table, pair attributes with values and form records. Data integration is to match source records with a target schema. Ontology specified wrappers is to extract the data from source records into a target schema. Results show that the data with unknown structure can be directly queried through a known target schema.

关键词：异质数据集成语义对应表理解本体抽取

分类号：TP311.13[自动化与计算机技术—计算机软件与理论] TP393.092[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于未知结构网页抽取本体的方法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于未知结构网页抽取本体的方法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于未知结构网页抽取本体的方法被引量：3