多中文搜索引擎的联合网络爬虫及LUCENCE实现  

Study on Multi-source Web Crawler Realization Based on Search Engine and Lucence

在线阅读下载全文

作  者:赵靖[1] 潘志舟[1] 梅芳婷[1] 程振[1] 钱吕见[1] 

机构地区:[1]安徽科技学院计算机系,安徽凤阳233100

出  处:《安阳师范学院学报》2012年第5期51-55,共5页Journal of Anyang Normal University

基  金:安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD);安徽科技学院大学生创新课题基金

摘  要:由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。Because the amount of information on the Web become more and more big,a single search engine may not include the whole network of track.Web crawler's ability,the size of the index database and system maintenance costs,have limited of a search engine the recall ratio.Therefore,the user must try to use all search engines to find out what he wants.The worst is each engine cover each other,users will have to repeat finding a piece of information.Existing search engine of a single limit,this thesis proposes more than for the WEB source WEB crawler's realization,speak existing search engine on the WEB pages of information extraction,filtering,sorting and information restructuring,can obtain more comprehensive,more accord with people need and personalized data results.

关 键 词:网络爬虫 搜索引擎 网页正文抽取 网页相似度 

分 类 号:TP393.08[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象