半结构化数据的模式抽取  被引量:5

Extracting Schema from Semistructured Data

在线阅读下载全文

作  者:蒙德龙[1] 叶飞跃[1] 李旭华[1] 

机构地区:[1]上海大学计算机工程与科学学院,上海200072

出  处:《计算机工程与应用》2006年第27期162-165,共4页Computer Engineering and Applications

摘  要:模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。Extracting schema is important in the field of semistructured data research.This paper presents a new approach to this topic with the conception of homo-object set and label path.The new approach finishes extracting schema by tow steps:firstly,searching all homo-object sets from OEM model;secondly,constructing schema table.This approach not only extracts schema from level structured data,but also from OEM data which include circle,while some other approaches can not extract schema from OEM data which include circle.

关 键 词:半结构化数据 OEM 同类对象 模式表 模式抽取 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象