Frontera 0.6 文档

Frontera 是一个爬虫工具箱,它可以让你构建任何规模和任意目的的爬虫。

Frontera 提供 crawl frontier 框架,这个框架可以帮助解决*何时抓取下一个URL*、*下个抓取的URL是什么*和检查*抓取结果*等问题。

Frontera 还为所有的爬虫组件提供了复制、分片、隔离的特性,这可以方便的扩展爬虫规模和将爬虫做成分布式。

Fronteta 包含完全支持 Scrapy 的组件,可以使用Scrapy的所有功能创建爬虫。尽管它最初是为Scrapy设计的,但是它也可以完美契合其他任何的框架或系统,因为它可以作为一个框架提供通用的工具箱。

介绍

这一章的目的是介绍 Frontera 的概念,通过阅读本章,你可以知道 Frontera 的设计理念和确定它能不能满足你的需求。

Frontera 概览
明白什么是 Frontera ?它能为你做什么?
运行模式
Frontera的高层体系结构和运行模式。
单进程模式快速入门
使用 Scrapy 作为容器来运行 Frontera。
分布式模式快速入门
引入 SQLite 和 ZeroMQ。
集群安装指南
Setting up clustered version of Frontera on multiple machines with HBase and Kafka. 使用 HBase 和 Kafka 在多台机器上部署 Frontera 集群。

使用 Frontera

安装指南
安装方法和依赖的选项。
Frontier 对象
理解用来代表网络请求和网络响应的类。
Middlewares(中间件)
过滤或者更改链接和网页的信息。
内置规范 URL 解算器参考
确认和使用网页的规范url。
后端
自定义抓取规则和存储方式。
消息总线
内置消息总线参考。
抓取策略
为分布式后端实现自己的抓取策略。
使用 Frontier 和 Scrapy
学习如何使用 Frontera + Scrapy 。
Settings
设置参考。

高级用法

什么是 Crawl Frontier?
学习 Crawl Frontier 理论。
Graph Manager
定义假的抓取规则来测试你的 frontier 。
记录 Scrapy 抓取过程
创建 Scrapy 抓取记录,并在之后重现他们。
Frontera 集群优化
机器部署和微调信息。
DNS 服务
DNS 服务搭建简介。

开发者文档

架构概述
了解 Frontera 如何工作和它的不同组件。
Frontera API
学习如何使用 frontier 。
Frontier + Requests
学习如何使用 Frontera + Requests 。
例子
一些使用 Frontera 的示例工程和示例脚本。
Tests
如果运行和写 Frontera 的测试用例。
Logging
使用 python 原生日志系统创建的一些 loggers 。
测试一个 Frontier
使用一个简单的方法测试你的 frontier。
F.A.Q.
常见问题。
贡献指引
如何贡献。
术语表
术语表。