检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:高文超[1] 李浩源 徐永康 GAO Wen-chao;LI Hao-yuan;XU Yong-kang(School of Mechanical Electronic and Information Engineering,China University of Mining and Technology-Beijing,Beijing 100083,China)
机构地区:[1]中国矿业大学(北京)机电与信息工程学院,北京100083
出 处:《电脑知识与技术》2020年第30期6-9,12,共5页Computer Knowledge and Technology
基 金:中央高校基本科研业务费专项资金(项目编号:2020YQJD15);中国矿业大学(北京)本科教育教学改革与研究项目(项目编号:J200513);国家大学生创新训练项目(项目编号:C202004828)。
摘 要:随着信息量的增多,为用户提供便捷的搜索服务也更加具有挑战性。大规模存储信息并精确搜索的代价是巨大的,人们需要在信息搜索的快捷性与成本中找到平衡。系统实现一个基于网络爬虫的搜索引擎。软件结构分为爬虫部分,数据库部分,前端显示部分。同时,描述了扩展成分布式爬虫的方法。硬件方面需要多台主机,软件方面包括Scrapy爬虫、数据库、Django框架。最终设计并实现了一个具有良好的健壮性和扩展性的网络爬虫系统。In the Internet era,with an increasing amount of information,it is more challenging to provide users with convenient search services.The cost of storing information on a large scale and searching accurately is huge,and people need to balance the speed and cost of information searching.This system implements a search engine based on a web crawler.The software structures are divided into the crawler part,database part,and front-end display part.At the same time,it describes the method to expand in⁃to a distributed crawler.In terms of hardware,multiple hosts are needed.In terms of software,Scrapy crawlers,databases,and the Django framework.Finally,a web crawler system with good robustness and expansibility is designed and implemented.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117