检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京大学多媒体计算机研究所,南京210093
出 处:《计算机应用与软件》2002年第1期53-59,共7页Computer Applications and Software
摘 要:为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。In order to integrate and query irregular and dynamic information on WEB in a database fashion,Object Exchange Model(OEM)is used to construct the information model of WEB. In order to express each component of the pages as an OEM object in this paper we have the following: (1) an algorithm which extracts semistructured data from HTML pages is designed; (2)a data extracting format which satisfies the constraints is defined and a candidate algorithm which outputs correct extracting format is designed; (3)the testing results have been given out.The structured and semi-structured data can thus be extracted by our method.It has more applicability than other current methods.
关 键 词:数据抽取格式 OEM模型 数据抽取格式约束 半结构化信息 数据库
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.64