Web网页信息变化的时间局部性规律及其验证  被引量:8

Characterizing Temporal Locality in Changes of Web Documents

在线阅读下载全文

作  者:孟涛[1] 闫宏飞[1] 王继民[1] 

机构地区:[1]北京大学计算机科学技术系网络与分布式系统实验室,北京,100871

出  处:《情报学报》2005年第4期398-406,共9页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金,国家重点基础研究发展计划(973计划),高等学校博士学科点专项科研项目

摘  要:掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集.本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察.从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律.因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察.结果表明,网页的变化存在明显的时间局部性.最后,介绍了这种时间局部性规律在网页搜集中的实际应用.In this paper we discover and characterize the temporal locality in changes of web documents. First, we sample the Chinese web and perform an experiment to record all the changes of each web page in the sample during a month. Our statistics shows the temporal correlation of these changes. Then we update the stack distance model to describe the changes of web pages and use a LRU stack to get the detailed parameters such as average stack distance, which proves the existence of the temporal locality. Finally we show how to use the temporal locality to enhance web applications such as spiders in search engines.

关 键 词:WEB网页 时间局部性 堆栈距离模型 变化次数 变化间隔 时间规律 局部性 信息 验证 应用系统 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] TU714[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象