用于网页目录构建的文本聚类算法  

Improved text clustering algorithm for constructing web directory

在线阅读下载全文

作  者:严桂夺[1] 陈建超[2] 

机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510006 [2]广东商学院数学与计算科学学院,广东广州510320

出  处:《计算机工程与设计》2010年第9期2002-2004,2088,共4页Computer Engineering and Design

基  金:广东省自然科学基金项目(07006474);广东省科技攻关基金项目(2007B010200044)

摘  要:为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法。改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类。把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性。To improve the efficiency of constructing web directories and enhance its flexibility, an improved text clustering algorithm is proposed. The improved CBC algorithm is employed to identify the cluster center quickly. According to the characteristic of web directories, hierarchical clustering is used to form the hierarchy of text clusters. Considering the fast growth of web text, incremental clustering is used to cluster the new web text. The proposed method is applied to a set of web text, it generates valid clusters. Compared to K-Means, it acquires better accuracy. It also has high time performance. The feasibility of this algorithm is validated by experiments.

关 键 词:网页目录 文本聚类 特征向量 层次聚类 增量聚类 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象