检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李武第 LI Wudi(School of Information Engineering,Minzu University of China,Beijing 100081,China)
出 处:《应用科技》2024年第5期292-297,共6页Applied Science and Technology
摘 要:网络爬虫在科研和分析工作的数据收集阶段展现出了显著的优势,但现有爬虫系统需要复杂的分析方法及构建流程,阻碍了爬虫技术的广泛应用。针对上述问题,提出一种简单且有效的爬虫系统分解方法。首先,将复杂的爬虫系统分解为多个子系统,使爬虫系统更加容易被分析、设计及应用。其次,构建一个爬虫系统的工具箱,用于帮助研究人员直接应用该分解方法来构建高效的爬虫系统。最后,通过可靠性、稳定性和易用性实验,证明所提出的分解方法及工具箱具有良好的性能及实际应用效果。Web crawlers show significant advantages in the data collection phase of research and analysis.However,existing crawler systems require complex analysis method and construction process,which hinders the widespread application of crawler technology.To address these issues,a simple and effective method for decomposing crawler systems is proposed,which decomposes the complex crawler system into multiple subsystems,making it easier to analyze,design,and apply the crawler system.And a toolbox for crawler systems is constructed to help researchers directly apply the decomposition method proposed in this paper to building of high-efficiency crawler systems.Finally,through experiments on reliability,stability,and usability,it is demonstrated that the proposed decomposition method and toolbox have good performance and practical application effect.
关 键 词:数据获取 深度学习 爬虫系统 软件支持 链接池 链接预测 系统解构 工具箱
分 类 号:TP319[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49