检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江师范大学信息科学与工程学院,金华321004 [2]菏泽市牡丹区财政局,菏泽274000
出 处:《计算机工程与应用》2004年第35期139-141,204,共4页Computer Engineering and Applications
基 金:浙江省教育厅科研项目(编号:20030717);浙江师范大学计算机应用校级重点学科资助
摘 要:文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳。文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法。文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果。This paper proposes combination of layered clustering&plans partition and its application in Web pages classification.In this paper the feature distribution and complexity of samples in Web pages classification are described.But for layered clustering method,layered nesting class can be generated and provided with upper nicety.By the way,layered clustering methods have more high computing complexity and are not suiting to large number of samples.K-mean methods are usually sensitive to initial clustering centers and propose bad results for irregular distributed samples.In the paper,firstly,part samples are used in layered clustering to generate original clustering centers.Secondly,K-mean methods are loaded continuing to classify the whole samples set.This strategy can avoid computing complexity of layered clustering methods and also take full advantage of fast classifying of K-mean method.On the other hand,this strategy imposes that layered clustering methods have high nicety and provide suitable initial clustering centers.Lastly,this paper provides Web pages clustering experiments for K -mean methods and combination of layered clustering&plans partition.
关 键 词:文本聚类 层次聚类 K-均值 机器学习 计算复杂度 分级聚类 平面划分 网页分类
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.189.44.233