Frontera 概览¶

Frontera 是 crawl frontier 的实现，用于在从网络下载之前累积URL /链接的网络爬虫组件。 Frontera的主要特征：

使用案例¶

下面是一些 crawl frontier 适用的案例：

这种情况下使用单进程可能是最好的选择。 Frontier 提供以下现成的优先级模型：

如果网站很大，抓取所有网页太浪费， Frontera 可以控制爬虫抓取最重要的网页。

如果考虑提高抓取速度可以使用分布式爬虫模式。在这种模式下，Frontera 为爬虫进程分发任务，并且只有一个后端实例。请求任务通过你选择的 message bus 进行分发，通过自定义分区调整任务分发策略。默认情况下请求任务是随机分发给爬虫的，抓取速度可以在爬虫中设置。

也考虑一下代理服务，比如 Crawlera。

有一组网站，并且需要以及时（或其他）方式重新抓取它们。Frontera 提供了简单的重新抓取后端，根据设置的时间间隔定期抓取已经抓取的网页。这个后端使用关系系数据库持久化数据，并可以应用在单进程模式或者分布式爬虫模式中。

看门狗案例 - 当需要通知文档变化时，也可以使用这样的后端和少量的自定义。

这种使用案例要求完全的分布式：爬虫和后端都是分布式。除了运行 spiders，还应该运行 strategy worker (s) 和 db worker (s)，这取决于选择的分区策略。

Frontera可用于与大规模网络抓取相关的一系列广泛任务：

下面是一些真实世界的问题：