Deep Web数据源聚焦爬虫  被引量:11

Deep Web Sources Focused Crawler

在线阅读下载全文

作  者:林超[1] 赵朋朋[1] 崔志明[1] 

机构地区:[1]苏州大学智能信息处理及应用研究所,苏州215006

出  处:《计算机工程》2008年第7期56-58,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60673092);2005年度教育部科研基金资助重点项目(205059);教育部高校博士学科点科研基金资助项目(20040285016);江苏省高技术研究计划基金资助项目(BG2005019)

摘  要:Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。A lot of pages on Internet are generated dynamically by the back-end databases, which can not be reached by the traditional search engines called Deep Web. This paper proposes an algorithm of Deep Web sources focused crawling. When evaluating the importance of hyperlinks, it takes into consideration relevance among page, topic, and link-related information. Experiments indicate that this method is effective.

关 键 词:DEEP WEB数据源 聚焦爬虫 贝叶斯分类器 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象