基于最大频繁Induced子树的GML文档结构聚类  被引量:2

Clustering GML Documents by Structure Based on Maximal Frequent Induced Subtrees

在线阅读下载全文

作  者:朱颖雯[1] 吉根林[2] 

机构地区:[1]三江学院计算机基础部 [2]南京师范大学数学与计算机科学学院

出  处:《南京师范大学学报(工程技术版)》2008年第4期50-55,共6页Journal of Nanjing Normal University(Engineering and Technology Edition)

基  金:国家自然科学基金(40771163)资助项目

摘  要:提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.This paper presents an algorithm TBCClustering for clustering GML document structure based on maximal fre- quent subtree patterns. During the maximal frequent subtree mining process, it optimizes characteristic spaces, gets the minimum support automatically, chooses some subtree pattern to form the optimistic clustering features, and uses CLOPE algorithm to cluster documents by clustering features without giving the number of cluster. Not only the dimensions of features are reduced, but also the higher clustering precision is obtained. Experiment results show that TBCClustering is more effective and efficient than PBClustering.

关 键 词:GML结构聚类 最大频繁Induced子树 闭合频繁Induced子树 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象