基于约束的半结构化信息的抽取方法  被引量:2

EXTRACTING SEMISTRUCTURED INFORMATION FROM WEB

在线阅读下载全文

作  者:黄豫清[1] 邹涛[1] 

机构地区:[1]南京大学多媒体计算机研究所,南京210093

出  处:《计算机应用与软件》2002年第1期53-59,共7页Computer Applications and Software

摘  要:为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。In order to integrate and query irregular and dynamic information on WEB in a database fashion,Object Exchange Model(OEM)is used to construct the information model of WEB. In order to express each component of the pages as an OEM object in this paper we have the following: (1) an algorithm which extracts semistructured data from HTML pages is designed; (2)a data extracting format which satisfies the constraints is defined and a candidate algorithm which outputs correct extracting format is designed; (3)the testing results have been given out.The structured and semi-structured data can thus be extracted by our method.It has more applicability than other current methods.

关 键 词:数据抽取格式 OEM模型 数据抽取格式约束 半结构化信息 数据库 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象