基于主题相似度指导网络蜘蛛穿越隧道的爬行算法  被引量:5

A Crawling Algorithm Based on Topical Similarity for Guiding the Web Crawler Though Tunnels

在线阅读下载全文

作  者:陈小海[1] 周娅[1] 

机构地区:[1]桂林电子科技大学计算机与控制学院,广西桂林541004

出  处:《计算机工程与科学》2009年第10期126-128,共3页Computer Engineering & Science

基  金:广西自然科学基金资助项目(桂科青0832101)

摘  要:隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。Tunneling is always the difficulty of topical web crawling. On the basis of analysing the Web topical features and the shortcomings of the general tunneling technology, this paper raises the algorithm using topical similarity to guide the web crawler though tunnels, and improves the accuracy of topical similarity using the Naive Bayesian classifier. The experimental results show that this algorithm is better than the general tunneling technology in precision and recall rate.

关 键 词:主题网络蜘蛛 隧道穿越 主题相似度 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象