基于标记二叉树的XML数据模式提取算法  被引量:1

New binary-tree-based algorithm for XML data model extraction

在线阅读下载全文

作  者:雷庆[1] 熊汉琛[1] 

机构地区:[1]华侨大学计算机科学与技术学院,福建泉州362021

出  处:《计算机工程与设计》2009年第13期3205-3208,共4页Computer Engineering and Design

基  金:华侨大学科研基金项目(07HZR27)

摘  要:以XML作为研究对象,提出了一种新的基于二叉树结构的XML数据模式信息的提取方法,抽取出XML文档的所有开始和结束标记并生成相应的标记链,对标记链中结点嵌套关系进行分析生成标记二叉树,通过判断和删除标记二叉树中的冗余数据得到XML文档的最简标记树模式。实验结果表明,即使对于标记的嵌套关系非常复杂的XML文档,该算法也能够准确地抽取出相应的最简标记树模式结构,同时还生成了相应的DTD模式文件。A new algorithm based on tag binary tree for XML data mode is presented, according to the algorithm a tag list of all start tags and end ones are gotten from original xml document at first, at the same time it generate a binary tree of tags through step relationship analysis, and the final simplest binary tree of tags is gotten by judging and deleting some redundant information. The test result proved that the algorithm get a tree structure efficiently from any XML document, and generate a DTD document at the same time, even though the step relationship of elements in xml document is very complex.

关 键 词:XML 嵌套关系 标记二叉树 模式抽取 DTD 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象