调试爬虫¶

本文档解释了调试爬虫的最常见技术。考虑以下Scrapy爬虫：

import scrapy
from myproject.items import MyItem


class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = (
        "http://example.com/page1",
        "http://example.com/page2",
    )

    def parse(self, response):
        # <processing code not shown>
        # collect `item_urls`
        for item_url in item_urls:
            yield scrapy.Request(item_url, self.parse_item)

    def parse_item(self, response):
        # <processing code not shown>
        item = MyItem()
        # populate `item` fields
        # and extract item_details_url
        yield scrapy.Request(
            item_details_url, self.parse_details, cb_kwargs={"item": item}
        )

    def parse_details(self, response, item):
        # populate more `item` fields
        return item

基本上，这是一个简单的爬虫，它解析两页的项目（start_urls）。项目还有一个包含额外信息的详情页，所以我们使用cb_kwargs功能来传递部分填充的项目。

解析命令¶

检查蜘蛛输出的最基本方法是使用 parse 命令。它允许在方法级别检查蜘蛛不同部分的行为。它具有灵活且易于使用的优点，但不允许在方法内部调试代码。

为了查看从特定URL抓取的项目：

$ scrapy parse --spider=myspider -c parse_item -d 2 <item_url>
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 2 <<<
# Scraped Items  ------------------------------------------------------------
[{'url': <item_url>}]

# Requests  -----------------------------------------------------------------
[]

使用 --verbose 或 -v 选项，我们可以看到每个深度级别的状态：

$ scrapy parse --spider=myspider -c parse_item -d 2 -v <item_url>
[ ... scrapy log lines crawling example.com spider ... ]

>>> DEPTH LEVEL: 1 <<<
# Scraped Items  ------------------------------------------------------------
[]

# Requests  -----------------------------------------------------------------
[<GET item_details_url>]


>>> DEPTH LEVEL: 2 <<<
# Scraped Items  ------------------------------------------------------------
[{'url': <item_url>}]

# Requests  -----------------------------------------------------------------
[]

检查从单个start_url抓取的项目，也可以轻松实现使用：

$ scrapy parse --spider=myspider -d 3 'http://example.com/page1'

Scrapy Shell¶

虽然parse命令对于检查蜘蛛的行为非常有用，但它对于检查回调内部发生的情况帮助不大，除了显示接收到的响应和输出。当parse_details有时没有接收到项目时，如何调试这种情况？

幸运的是，在这种情况下，shell 是你的得力助手（参见从蜘蛛调用 shell 以检查响应）：

from scrapy.shell import inspect_response


def parse_details(self, response, item=None):
    if item:
        # populate more `item` fields
        return item
    else:
        inspect_response(response, self)

另请参阅：从爬虫调用shell以检查响应。

在浏览器中打开¶

有时候你只是想看看某个响应在浏览器中的样子，你可以使用 open_in_browser() 函数来实现：

scrapy.utils.response.open_in_browser(response: TextResponse, _openfunc: Callable[[str], Any] = <function open>) → Any[source]¶

在本地网页浏览器中打开response，调整base标签以使外部链接正常工作，例如，以便显示图像和样式。

例如：

from scrapy.utils.response import open_in_browser


def parse_details(self, response):
    if "item name" not in response.body:
        open_in_browser(response)

日志记录¶

日志记录是获取有关您的爬虫运行信息的另一个有用选项。虽然不如方便，但它有一个优势，即日志将在所有未来的运行中可用，如果再次需要它们：

def parse_details(self, response, item=None):
    if item:
        # populate more `item` fields
        return item
    else:
        self.logger.warning("No item received for %s", response.url)

欲了解更多信息，请查看Logging部分。

Visual Studio Code¶

要使用Visual Studio Code调试爬虫，您可以使用以下launch.json：

{
    "version": "0.1.0",
    "configurations": [
        {
            "name": "Python: Launch Scrapy Spider",
            "type": "python",
            "request": "launch",
            "module": "scrapy",
            "args": [
                "runspider",
                "${file}"
            ],
            "console": "integratedTerminal"
        }
    ]
}

此外，请确保启用“用户未捕获异常”，以捕获您的Scrapy爬虫中的异常。