DNS 服务

除了提到的 前提 你可能还需要一个专用的 DNS 服务。特别是在你的爬虫会产生大量 DNS 请求的情况下。在广度优先抓取或者其他短时间内访问大量网站的情况下,使用专用的 DNS 服务都是正确的。

由于负载巨大,DNS 服务最终可能会被您的网络提供商阻止。

DNS策略有两种选择:

  • 递归DNS解析,
  • 利用上游服务器(大规模的DNS缓存像OpenDNS或Verizon)。

第二个仍然容易阻塞。

NLnet 实验室发布的 DNS 服务软件很好用 https://www.unbound.net/ 。它允许选择上述策略之一,并维护本地DNS缓存。

请查看 Scrapy 选项 REACTOR_THREADPOOL_MAXSIZEDNS_TIMEOUT