基于Bloom Filter的网页去重算法  被引量:6

Duplicate Web Page Elimination Based on Bloom Filter

在线阅读下载全文

作  者:徐娜[1] 刘四维[1] 汪翔[1] 倪卫明[1] 

机构地区:[1]复旦大学

出  处:《微型电脑应用》2011年第3期48-51,6,共5页Microcomputer Applications

摘  要:现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度。There are many duplicated web pages in the internet, which will make data mining and information retrieval more difficult. In this paper, we analysis the disadvantage of current algorithm, and propose a new algorithm to eliminate duplicated web pages based on Bloom Filter. We use existed refining algorithm to pre-process the web pages, and reduce the running time and stored space using Bloom Filter to process duplicated web pages. This paper use long sentences to represent features of web pages, and change ...

关 键 词:BLOOM filter 网页去重 长句 HASH函数 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象