搜索引擎用户访问量模型  被引量:12

Modeling Quantity of Users'Access for Search Engine

在线阅读下载全文

作  者:王继民[1,2] 彭波[1] 

机构地区:[1]北京大学计算机科学技术系网络实验室 [2]中科院资源环境科学信息中心,兰州730000

出  处:《计算机工程与应用》2004年第25期9-11,30,共4页Computer Engineering and Applications

基  金:国家973重点基础发展研究计划项目(编号:G1999032706)资助

摘  要:基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。Tianwang is a large-scale search engine system which is now maintaining index of about 258millions web pages and20millions ftp files.Some hidden periodicity models of the quantity of users' access for search engine is established based on the query and click log of Tianwang.The main idea is that the quantity of users' access,which includes the quantity of users' query,click and distinct IP users under a unit time ,is regarded as a time series.Then the models can be established by applying some methods in time series analysis.The results show that the models provide a better fit to the real data.And the main period of the quantity of users' access is24hour ,the others12hour ,6hour ,8hour ,5hour and168hour (i.e.one week).The exceptional access can be detected by applying wavelet method.

关 键 词:搜索引擎 用户访问量 小波 潜周期模型 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象