检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510006 [2]广东商学院数学与计算科学学院,广东广州510320
出 处:《计算机工程与设计》2010年第9期2002-2004,2088,共4页Computer Engineering and Design
基 金:广东省自然科学基金项目(07006474);广东省科技攻关基金项目(2007B010200044)
摘 要:为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法。改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类。把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性。To improve the efficiency of constructing web directories and enhance its flexibility, an improved text clustering algorithm is proposed. The improved CBC algorithm is employed to identify the cluster center quickly. According to the characteristic of web directories, hierarchical clustering is used to form the hierarchy of text clusters. Considering the fast growth of web text, incremental clustering is used to cluster the new web text. The proposed method is applied to a set of web text, it generates valid clusters. Compared to K-Means, it acquires better accuracy. It also has high time performance. The feasibility of this algorithm is validated by experiments.
关 键 词:网页目录 文本聚类 特征向量 层次聚类 增量聚类
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.217.210.224