检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谭思亮[1]
机构地区:[1]中国科学院成都计算机应用研究所,四川成都610041
出 处:《微计算机信息》2007年第02X期193-195,共3页Control & Automation
基 金:国家"九七三"计划项目(2004CB318003)资助
摘 要:爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。This paper introduces a focused crawling algorithm which can improve its analysis algorithm and quality of seeds based on previous crawling. In our experiments, the crawler is tested in terms of the harvest rate. It turns out that the results are better than Breadth-first crawler, Best-first crawler based on content similarity and Best-first crawler based on PageRank metric.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.198