Frontera 0.6 文档¶

Frontera 是一个爬虫工具箱，它可以让你构建任何规模和任意目的的爬虫。

Frontera 提供 crawl frontier 框架，这个框架可以帮助解决*何时抓取下一个URL*、*下个抓取的URL是什么*和检查*抓取结果*等问题。

Frontera 还为所有的爬虫组件提供了复制、分片、隔离的特性，这可以方便的扩展爬虫规模和将爬虫做成分布式。

Fronteta 包含完全支持 Scrapy 的组件，可以使用Scrapy的所有功能创建爬虫。尽管它最初是为Scrapy设计的，但是它也可以完美契合其他任何的框架或系统，因为它可以作为一个框架提供通用的工具箱。

介绍¶

这一章的目的是介绍 Frontera 的概念，通过阅读本章，你可以知道 Frontera 的设计理念和确定它能不能满足你的需求。

Frontera 概览: 明白什么是 Frontera ？它能为你做什么？
运行模式: Frontera的高层体系结构和运行模式。
单进程模式快速入门: 使用 Scrapy 作为容器来运行 Frontera。
分布式模式快速入门: 引入 SQLite 和 ZeroMQ。
集群安装指南: Setting up clustered version of Frontera on multiple machines with HBase and Kafka. 使用 HBase 和 Kafka 在多台机器上部署 Frontera 集群。

使用 Frontera¶

安装指南: 安装方法和依赖的选项。
Frontier 对象: 理解用来代表网络请求和网络响应的类。
Middlewares（中间件）: 过滤或者更改链接和网页的信息。
内置规范 URL 解算器参考: 确认和使用网页的规范url。
后端: 自定义抓取规则和存储方式。
消息总线: 内置消息总线参考。
抓取策略: 为分布式后端实现自己的抓取策略。
使用 Frontier 和 Scrapy: 学习如何使用 Frontera + Scrapy 。
Settings: 设置参考。

高级用法¶

什么是 Crawl Frontier?: 学习 Crawl Frontier 理论。
Graph Manager: 定义假的抓取规则来测试你的 frontier 。
记录 Scrapy 抓取过程: 创建 Scrapy 抓取记录，并在之后重现他们。
Frontera 集群优化: 机器部署和微调信息。
DNS 服务: DNS 服务搭建简介。

开发者文档¶

架构概述: 了解 Frontera 如何工作和它的不同组件。
Frontera API: 学习如何使用 frontier 。
Frontier + Requests: 学习如何使用 Frontera + Requests 。
例子: 一些使用 Frontera 的示例工程和示例脚本。
Tests: 如果运行和写 Frontera 的测试用例。
Logging: 使用 python 原生日志系统创建的一些 loggers 。
测试一个 Frontier: 使用一个简单的方法测试你的 frontier。
F.A.Q.: 常见问题。
贡献指引: 如何贡献。
术语表: 术语表。

Read the Docs v: latest

Versions: latest

Downloads: htmlzip

On Read the Docs: Project Home; Builds

Free document hosting provided by Read the Docs.