检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国石油大学计算机与通信工程学院,山东东营257061
出 处:《计算机工程与应用》2008年第23期160-162,共3页Computer Engineering and Applications
摘 要:Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。Knowledge of Web user clustering can improve the efficiency of information searching and personalized service.Firstly, session-page matrix can been constructed by analyzing a great deal of log.Then,based on information theory,the local weight and global weight are considered in calculation of weight in session-page matrix.With usage of probabilistic latent semantic analysis, the conditional probability of latent variable Z to page- P is transformed the conditional probability of latent variable Z to session S,then the transformed results are used in similarity calculation.The k-medoids algorithm is adopted to further improve clursting result.Experiment results validate validity and limitation of this algorithm.
关 键 词:WEB日志 预处理 WEB用户 概率潜在语义分析 聚类
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30