基于PLSA模型的Web用户聚类算法研究  被引量:3

Research of a User Clustering Algorithm Based on the PLSA Model

在线阅读下载全文

作  者:俞辉[1] 

机构地区:[1]中国石油大学计算机与通信工程学院,山东东营257061

出  处:《计算机工程与科学》2008年第7期30-32,72,共4页Computer Engineering & Science

摘  要:面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话-页面矩阵权值计算中考虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。With the rapid increase of web pages on the Intemet, we can improve the efficiency of information searching and personalized services by performing a clustering analysis of the browsed records. Based on the information theory, the local weight and global weight are considered in the calculation of the weights in the session-page matrix. Based on the probabilistic latent semantic analysis, the conditional probability of the latent variable Z to page P is transformed into the conditional probability of the latent variable Z to session S. And then the transformed results are used in similarity calculation. The k-medoids algorithm is adopted to further improve the clursting results. Experimental results verify the validity and limitation of this algorithm.

关 键 词:WEB日志 WEB用户 概率潜在语义分析 聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象