检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵万磊[1] 王永吉[2] 张学杰[1] 李娟[2]
机构地区:[1]云南大学信息学院,云南昆明650091 [2]中国科学院软件研究所,北京100080
出 处:《计算机应用》2005年第9期2037-2040,共4页journal of Computer Applications
基 金:国家863计划资助项目(2001AA1131802002AA116080)
摘 要:文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。Document clustering had been employed in information filtering, web page classification and so on. K-means is one of the widely used clustering techniques because of its simplicity and high scalability. Owing to its random selection of initial centers, unstable results were often got when using traditional K-means and its variants. Here a technique of optimization initial centers of clustering was proposed. Combined with incremental iteration, it can produce clustering results with high purity, low entropy as well as good stableness.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222