Scrapy 2.12 文档

Scrapy 是一个快速的高级 网络爬虫网页抓取 框架,用于爬取网站并从其页面中提取结构化数据。它可以用于多种目的,从数据挖掘到监控和自动化测试。

获取帮助

遇到问题了吗?我们很乐意提供帮助!

第一步

Scrapy 概览

了解什么是Scrapy以及它如何帮助你。

安装指南

在您的计算机上安装Scrapy。

Scrapy 教程

编写你的第一个Scrapy项目。

示例

通过使用预制的Scrapy项目了解更多。

基本概念

命令行工具

了解用于管理您的Scrapy项目的命令行工具。

爬虫

编写规则以抓取您的网站。

选择器

使用XPath从网页中提取数据。

Scrapy shell

在交互式环境中测试您的提取代码。

项目

定义你想要抓取的数据。

项目加载器

用提取的数据填充您的项目。

Item Pipeline

对抓取的数据进行后处理并存储。

Feed exports

使用不同的格式和存储方式输出你抓取的数据。

请求和响应

了解用于表示HTTP请求和响应的类。

链接提取器

方便的类,用于从页面中提取要跟踪的链接。

设置

学习如何配置Scrapy并查看所有可用设置

异常

查看所有可用的异常及其含义。

内置服务

日志记录

学习如何在Scrapy中使用Python的内置日志记录。

统计收集

收集关于您的爬虫的统计信息。

发送电子邮件

当某些事件发生时发送电子邮件通知。

Telnet 控制台

使用内置的Python控制台检查正在运行的爬虫。

解决特定问题

常见问题解答

获取最常见问题的答案。

调试爬虫

学习如何调试您的Scrapy爬虫常见问题。

Spiders Contracts

学习如何使用合约来测试你的爬虫。

常见实践

熟悉一些Scrapy的常见做法。

广泛爬取

调整Scrapy以并行爬取多个域名。

使用浏览器的开发者工具进行抓取

学习如何使用浏览器的开发者工具进行抓取。

选择动态加载的内容

读取动态加载的网页数据。

调试内存泄漏

学习如何查找并消除爬虫中的内存泄漏。

下载和处理文件和图像

下载与您抓取的项目相关的文件和/或图像。

部署爬虫

部署您的Scrapy爬虫并在远程服务器上运行它们。

自动限流扩展

根据负载动态调整爬取速率。

基准测试

检查Scrapy在您的硬件上的表现。

任务:暂停和恢复爬取

学习如何暂停和恢复大型爬虫的抓取。

协程

使用coroutine syntax

asyncio

使用 asyncioasyncio 驱动的库。

扩展Scrapy

架构概述

了解Scrapy架构。

附加组件

启用并配置第三方扩展。

下载器中间件

自定义页面的请求和下载方式。

爬虫中间件

自定义您的爬虫的输入和输出。

扩展

使用您的自定义功能扩展Scrapy

信号

查看所有可用的信号以及如何使用它们。

调度器

了解调度器组件。

项目导出器

快速将您抓取的项目导出到文件(XML, CSV等)。

组件

学习构建自定义Scrapy组件时的常见API和一些最佳实践。

核心API

在扩展和中间件上使用它来扩展Scrapy功能。

所有其余内容

发布说明

查看最近Scrapy版本的更新内容。

为Scrapy做贡献

学习如何为Scrapy项目做出贡献。

版本控制和API稳定性

了解Scrapy版本控制和API稳定性。