检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:高哲[1] 魏海平[1] 王福威[1] 赵晓碧[1]
机构地区:[1]辽宁石油化工大学计算机与通信工程学院,辽宁抚顺113001
出 处:《计算机工程与设计》2008年第18期4708-4710,共3页Computer Engineering and Design
摘 要:Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足。k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类。试验结果表明,该改进算法提高了聚类效率。Web log mining is one of the web mining. The process of the web log mining and the k-means algorithms are introduced. And the shortage of the k-means algorithm is analyzed. The k-means algorithm needs to compute the distance between every data object and the center of the clusters, which lowers the efficiency. To this problem, an enhanced algorithm of the k-means is put forward, which avoids computing the distance between every data object and the center of the clusters. Web document clustering is implemented with two algorithms and it is shown that the enhanced algorithm improves the clustering efficiency.
关 键 词:日志挖掘 WEB日志 K-MEANS 文档聚类 日志预处理
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7