检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京大学计算机科学技术系网络实验室 [2]中科院资源环境科学信息中心,兰州730000
出 处:《计算机工程与应用》2004年第25期9-11,30,共4页Computer Engineering and Applications
基 金:国家973重点基础发展研究计划项目(编号:G1999032706)资助
摘 要:基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。Tianwang is a large-scale search engine system which is now maintaining index of about 258millions web pages and20millions ftp files.Some hidden periodicity models of the quantity of users' access for search engine is established based on the query and click log of Tianwang.The main idea is that the quantity of users' access,which includes the quantity of users' query,click and distinct IP users under a unit time ,is regarded as a time series.Then the models can be established by applying some methods in time series analysis.The results show that the models provide a better fit to the real data.And the main period of the quantity of users' access is24hour ,the others12hour ,6hour ,8hour ,5hour and168hour (i.e.one week).The exceptional access can be detected by applying wavelet method.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62