基于OEM模型的半结构化数据的模式发现  被引量:5

Schema Discovery of Semi-structured Data Based on OEM Model

在线阅读下载全文

作  者:吕橙[1] 魏楚元[1] 张瀚韬[1] 

机构地区:[1]北京建筑工程学院计算机系,北京100044

出  处:《计算机工程与应用》2006年第34期162-165,181,共5页Computer Engineering and Applications

基  金:北京市教委科技发展计划资助项目(KM200510016002)。

摘  要:随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐含结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此,半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念,提出了分层事务数据库和“累加变换”的计数原则,并据此提出了基于SHDP-tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的有效性和高效性。Along with the rapid development of Web data and data integration technology,semi-structured data have aroused people's more recognition.The semi-structured data is a kind of self-described data whose structure is unprecise or connotative.h is different from the schema of conventional data.It has data first but schema later and its mode is used to describe structure information of data not to implement compulsive restriction.The schema discovery of semi-structured data has become the first step of knowledge discovery.The concept of hierarchical data is adopted and a counting principle of hierarchical transaction database and accumulating transform are offered in this paper.A new algorithm SHDP-mine based on SHDP-tree and a basic schema used to mine semi-structured and hierarchical data is also offered in this paper.At last,its validity and efficiency is analyzed and validated through experiment and theory.

关 键 词:半结构化层次数据 OEM模型 分层事务数据库 SHDP—tree结构 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象