基于多中文搜索引擎的可扩展网络混合爬虫  被引量:1

An Extensible Web Crawler Framework Based on Multiple Chinese Search Engines

在线阅读下载全文

作  者:潘志舟[1] 赵靖[1] 

机构地区:[1]安徽科技学院理学院,安徽凤阳233100

出  处:《安徽科技学院学报》2012年第6期70-75,共6页Journal of Anhui Science and Technology University

基  金:安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD);安徽科技学院第九批大学生创新课题项目基金(12XSZ09)

摘  要:由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。Due to the massive increasement of web information, any search engine cannot include all web re- sources to get an good coverage ratio for its database size and ability. How to design an uniform search engine to merge existing search engines query results quickly and personally is a big challenge. Therefore, we proposed an extensible web crawler framework which can send keywords to each search engines and integrate their results fea- sibly and personally. Our experiments of system show that our models and algorithms are quite efficient and feasi- ble for better coverage ratio and accuracy.

关 键 词:元搜索引擎 网络爬虫 搜索引擎 网页相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象