部署爬虫

本节描述了您部署Scrapy爬虫以定期运行的不同选项。在本地机器上运行Scrapy爬虫对于(早期)开发阶段非常方便,但当您需要执行长时间运行的爬虫或将爬虫移动到生产环境中持续运行时,就不那么方便了。这就是部署Scrapy爬虫的解决方案的用武之地。

部署Scrapy爬虫的流行选择有:

部署到Scrapyd服务器

Scrapyd 是一个用于运行 Scrapy 爬虫的开源应用程序。它提供了一个带有 HTTP API 的服务器,能够运行和监控 Scrapy 爬虫。

要将爬虫部署到Scrapyd,您可以使用scrapyd-client包提供的scrapyd-deploy工具。更多信息请参考scrapyd-deploy文档

Scrapyd 由一些 Scrapy 开发者维护。

部署到Zyte Scrapy云

Zyte Scrapy Cloud 是由 Zyte 提供的一个托管式云服务,该公司是 Scrapy 的幕后支持者。

Zyte Scrapy Cloud 消除了设置和监控服务器的需求,并提供了一个友好的用户界面来管理爬虫和审查抓取的项目、日志和统计数据。

要将爬虫部署到Zyte Scrapy Cloud,您可以使用shub命令行工具。 更多信息请参考Zyte Scrapy Cloud文档

Zyte Scrapy Cloud 与 Scrapyd 兼容,可以根据需要在它们之间切换 - 配置从 scrapy.cfg 文件中读取,就像 scrapyd-deploy 一样。