一种有效的XML数据清洗方法被引量：1

Efficient Cleaning Approach for XML Data

机构地区：[1]南京邮电大学计算机学院,南京210003 [2]东南大学计算机科学与工程系,南京210096

出　　处：《计算机工程》2008年第15期47-50,共4页Computer Engineering

基　　金：江苏省"十五"高科技计划基金资助项目(BG2001013)

摘　　要：研究XML格式的重复数据元素的特点,提出对于特定应用领域,在具体的上下文环境中主动学习XML重复元素的识别规则。通过结构转换,将结构不尽相同的XML数据映射成结构一致的数据,并通过学习不同层次数据元素间的依赖关系权重来获得匹配规则。根据学习得到的转换和匹配规则,采用哈希过滤的方法来提高检测重复XML元素的效率。该方法能够有效地解决XML重复检测面临的结构多样性的问题,理论分析和实验表明,该方法有较高的精度和效率。By studying characteristics of duplicate XML data, this paper proposes an active machine learning method for a specific application, which is applied to glean transformation rules and matching rules, and accurately identify duplicate XML elements. Transfomation rules are used to eliminate the structural diversities among elements and matching rules are used to identify the relationships between parent and child nodes. In turn, during the detection phase an efficient hash filter algorithm is proposed to reduce computational complexity. Theory and experiment shows that the method can solve this problem efficiently and effectively.

关键词：主动学习匹配规则哈希

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种有效的XML数据清洗方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种有效的XML数据清洗方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种有效的XML数据清洗方法被引量：1