Web日志中用户频繁路径快速挖掘算法  被引量:12

A Fast Algorithm for Mining User Frequent Paths from Web Logs

在线阅读下载全文

作  者:杜家强[1] 韩其睿[1] 王科[1] 杜家兴[2] 

机构地区:[1]天津工业大学计算机应用与自动化学院,天津300160 [2]人民日报社网络中心,北京100733

出  处:《计算机工程与应用》2005年第22期164-167,共4页Computer Engineering and Applications

摘  要:Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。Web logs contain a lot of user browsing information,it's necessary condition for creating adaptive web sites. On the analysis of Apriori algorithm and graphic storage organization,This paper proposes Session Matrix and Trace Matrix,designs a fast algorithm for mining user frequent paths:Firstly,Frequent 1-1tem Set which match the criteria of certain threshold is filtered ouffrom web access logs by Session Matrix,which avoids generating a great dealof intermediate items;Then we can get relative pages by clustering pages fast in similar customer groups;Finally,all the relative pages is combined by Trace Matrix,which generates Frequent PathsoExperiments show the accuracy and fast of the algorithm.

关 键 词:会话矩阵 遍历矩阵 相关联页面 用户频繁路径 快速挖掘算法 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象