基于Web日志的高精度聚类算法  被引量:4

High Precision Clustering Algorithm Based on Web Log

在线阅读下载全文

作  者:金松河[1] 钱慎一[1] 张素智[1] 

机构地区:[1]郑州轻工业学院计算机与通信工程学院,河南郑州450002

出  处:《河南科技大学学报(自然科学版)》2006年第2期49-51,共3页Journal of Henan University of Science And Technology:Natural Science

基  金:河南省自然科学基金项目(0411010500)

摘  要:提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。Similar customer groups, relevant Web pages and frequent access paths can be discovered by analyzing Web log files. A Web log mining algorithm is presented here. Firstly, according to Web site' s directed graph defined, a URL-UserID relevant matrix is set up, with URL as row and UserID as column, and users times of visiting as element values. Secondly, rough session clusters are obtained by measuring similarity between row vectors. Finally, by dealing with the rough session clusters further through hierarchy comparison clustering algorithm, clusters with higher precision can be acquired. Experiments prove the effectiveness of the algorithm.

关 键 词:网络 WEB日志挖掘 会话聚类 结构层次 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象