Scrapy 2.12 文档¶
Scrapy 是一个快速的高级 网络爬虫 和 网页抓取 框架,用于爬取网站并从其页面中提取结构化数据。它可以用于多种目的,从数据挖掘到监控和自动化测试。
获取帮助¶
遇到问题了吗?我们很乐意提供帮助!
尝试查看FAQ – 它解答了一些常见问题。
在StackOverflow使用scrapy标签提问或搜索问题。
在Scrapy subreddit中提问或搜索问题。
在scrapy-users邮件列表的存档中搜索问题。
在#scrapy IRC频道中提问,
在我们的问题跟踪器中报告Scrapy的错误。
加入Discord社区 Scrapy Discord.
第一步¶
基本概念¶
- 命令行工具
了解用于管理您的Scrapy项目的命令行工具。
- 爬虫
编写规则以抓取您的网站。
- 选择器
使用XPath从网页中提取数据。
- Scrapy shell
在交互式环境中测试您的提取代码。
- 项目
定义你想要抓取的数据。
- 项目加载器
用提取的数据填充您的项目。
- Item Pipeline
对抓取的数据进行后处理并存储。
- Feed exports
使用不同的格式和存储方式输出你抓取的数据。
- 请求和响应
了解用于表示HTTP请求和响应的类。
- 链接提取器
方便的类,用于从页面中提取要跟踪的链接。
- 设置
学习如何配置Scrapy并查看所有可用设置。
- 异常
查看所有可用的异常及其含义。
内置服务¶
- 日志记录
学习如何在Scrapy中使用Python的内置日志记录。
- 统计收集
收集关于您的爬虫的统计信息。
- 发送电子邮件
当某些事件发生时发送电子邮件通知。
- Telnet 控制台
使用内置的Python控制台检查正在运行的爬虫。
解决特定问题¶
- 常见问题解答
获取最常见问题的答案。
- 调试爬虫
学习如何调试您的Scrapy爬虫常见问题。
- Spiders Contracts
学习如何使用合约来测试你的爬虫。
- 常见实践
熟悉一些Scrapy的常见做法。
- 广泛爬取
调整Scrapy以并行爬取多个域名。
- 使用浏览器的开发者工具进行抓取
学习如何使用浏览器的开发者工具进行抓取。
- 选择动态加载的内容
读取动态加载的网页数据。
- 调试内存泄漏
学习如何查找并消除爬虫中的内存泄漏。
- 下载和处理文件和图像
下载与您抓取的项目相关的文件和/或图像。
- 部署爬虫
部署您的Scrapy爬虫并在远程服务器上运行它们。
- 自动限流扩展
根据负载动态调整爬取速率。
- 基准测试
检查Scrapy在您的硬件上的表现。
- 任务:暂停和恢复爬取
学习如何暂停和恢复大型爬虫的抓取。
- 协程
- asyncio
扩展Scrapy¶
所有其余内容¶
- 发布说明
查看最近Scrapy版本的更新内容。
- 为Scrapy做贡献
学习如何为Scrapy项目做出贡献。
- 版本控制和API稳定性
了解Scrapy版本控制和API稳定性。