Frontera 0.6 文档¶
Frontera 是一个爬虫工具箱,它可以让你构建任何规模和任意目的的爬虫。
Frontera 提供 crawl frontier 框架,这个框架可以帮助解决*何时抓取下一个URL*、*下个抓取的URL是什么*和检查*抓取结果*等问题。
Frontera 还为所有的爬虫组件提供了复制、分片、隔离的特性,这可以方便的扩展爬虫规模和将爬虫做成分布式。
Fronteta 包含完全支持 Scrapy 的组件,可以使用Scrapy的所有功能创建爬虫。尽管它最初是为Scrapy设计的,但是它也可以完美契合其他任何的框架或系统,因为它可以作为一个框架提供通用的工具箱。
介绍¶
这一章的目的是介绍 Frontera 的概念,通过阅读本章,你可以知道 Frontera 的设计理念和确定它能不能满足你的需求。
- Frontera 概览
- 明白什么是 Frontera ?它能为你做什么?
- 运行模式
- Frontera的高层体系结构和运行模式。
- 单进程模式快速入门
- 使用 Scrapy 作为容器来运行 Frontera。
- 分布式模式快速入门
- 引入 SQLite 和 ZeroMQ。
- 集群安装指南
- Setting up clustered version of Frontera on multiple machines with HBase and Kafka. 使用 HBase 和 Kafka 在多台机器上部署 Frontera 集群。
使用 Frontera¶
- 安装指南
- 安装方法和依赖的选项。
- Frontier 对象
- 理解用来代表网络请求和网络响应的类。
- Middlewares(中间件)
- 过滤或者更改链接和网页的信息。
- 内置规范 URL 解算器参考
- 确认和使用网页的规范url。
- 后端
- 自定义抓取规则和存储方式。
- 消息总线
- 内置消息总线参考。
- 抓取策略
- 为分布式后端实现自己的抓取策略。
- 使用 Frontier 和 Scrapy
- 学习如何使用 Frontera + Scrapy 。
- Settings
- 设置参考。
高级用法¶
- 什么是 Crawl Frontier?
- 学习 Crawl Frontier 理论。
- Graph Manager
- 定义假的抓取规则来测试你的 frontier 。
- 记录 Scrapy 抓取过程
- 创建 Scrapy 抓取记录,并在之后重现他们。
- Frontera 集群优化
- 机器部署和微调信息。
- DNS 服务
- DNS 服务搭建简介。
开发者文档¶
- 架构概述
- 了解 Frontera 如何工作和它的不同组件。
- Frontera API
- 学习如何使用 frontier 。
- Frontier + Requests
- 学习如何使用 Frontera + Requests 。
- 例子
- 一些使用 Frontera 的示例工程和示例脚本。
- Tests
- 如果运行和写 Frontera 的测试用例。
- Logging
- 使用 python 原生日志系统创建的一些 loggers 。
- 测试一个 Frontier
- 使用一个简单的方法测试你的 frontier。
- F.A.Q.
- 常见问题。
- 贡献指引
- 如何贡献。
- 术语表
- 术语表。