项目¶
抓取的主要目标是从非结构化来源(通常是网页)中提取结构化数据。Spiders 可能会将提取的数据作为 items 返回,这些是定义键值对的 Python 对象。
Scrapy 支持 多种类型的项目。当你创建一个项目时,你可以使用任何你想要的类型。当你编写接收项目的代码时,你的代码应该 适用于任何项目类型。
项目类型¶
Scrapy 通过 itemadapter 库支持以下类型的项目: 字典, 项目对象, 数据类对象, 和 attrs 对象.
字典¶
作为一种项目类型,dict 既方便又熟悉。
项目对象¶
Item 提供了一个类似于 dict 的 API,并附加了一些额外的功能,使其成为功能最全面的项目类型:
- class scrapy.Item(*args: Any, **kwargs: Any)[source]¶
抓取项目的基础类。
在Scrapy中,如果一个对象被itemadapter库支持,那么它就被视为一个
item。例如,当蜘蛛回调的输出被评估时,只有这样的对象才会被传递到item pipelines。Item是itemadapter默认支持的类之一。项目必须声明
Field属性,这些属性被处理并存储在fields属性中。这限制了允许的字段名称集并防止拼写错误,当引用未定义的字段时会引发KeyError。此外,字段可用于定义元数据并控制数据在内部处理的方式。请参阅关于字段的文档以获取更多信息。与
dict的实例不同,Item的实例可能会被跟踪以调试内存泄漏。- deepcopy() Self[source]¶
返回此项目的
deepcopy()。
Item 对象复制了标准的 dict API,包括其 __init__ 方法。
Item 允许定义字段名称,以便:
KeyError在使用未定义的字段名称时引发(即防止拼写错误被忽视)Item exporters 默认情况下可以导出所有字段,即使第一个抓取的对象没有所有字段的值
Item 还允许定义字段元数据,这些元数据可以用于
自定义序列化。
trackref 跟踪 Item 对象以帮助发现内存泄漏
(参见 使用 trackref 调试内存泄漏)。
示例:
from scrapy.item import Item, Field
class CustomItem(Item):
one_field = Field()
another_field = Field()
数据类对象¶
新版本2.2新增。
dataclass() 允许定义具有字段名称的项目类,
以便 项目导出器 可以默认导出所有字段,
即使第一个抓取的对象没有所有字段的值。
此外,dataclass 项目还允许您:
定义每个定义字段的类型和默认值。
通过
dataclasses.field()定义自定义字段元数据,可用于自定义序列化。
示例:
from dataclasses import dataclass
@dataclass
class CustomItem:
one_field: str
another_field: int
注意
字段类型在运行时不会被强制执行。
attr.s 对象¶
新版本2.2新增。
attr.s() 允许定义带有字段名称的项目类,
以便 项目导出器 可以默认导出所有字段,
即使第一个抓取的对象没有所有字段的值。
此外,attr.s 项目还允许:
为了使用此类型,需要安装attrs包。
示例:
import attr
@attr.s
class CustomItem:
one_field = attr.ib()
another_field = attr.ib()
处理Item对象¶
声明Item子类¶
项目子类使用简单的类定义语法和Field对象声明。以下是一个示例:
import scrapy
class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()
tags = scrapy.Field()
last_updated = scrapy.Field(serializer=str)
注意
熟悉Django的人会注意到,Scrapy Items的声明与Django Models类似,只是Scrapy Items要简单得多,因为没有不同字段类型的概念。
声明字段¶
Field 对象用于指定每个字段的元数据。例如,上面示例中展示的 last_updated 字段的序列化函数。
您可以为每个字段指定任何类型的元数据。Field对象接受的值没有限制。出于同样的原因,也没有所有可用元数据键的参考列表。Field对象中定义的每个键可能由不同的组件使用,只有这些组件知道它。您也可以根据需要在项目中定义和使用任何其他Field键。Field对象的主要目标是提供一种在一个地方定义所有字段元数据的方式。通常,那些行为依赖于每个字段的组件使用某些字段键来配置该行为。您必须参考它们的文档以查看每个组件使用了哪些元数据键。
需要注意的是,用于声明项目的Field对象不会作为类属性保留。相反,可以通过fields属性访问它们。
- class scrapy.Field[source]¶
字段元数据的容器
Field类只是内置dict类的别名,并且不提供任何额外的功能或属性。换句话说,Field对象是普通的 Python 字典。使用单独的类是为了支持基于类属性的 项目声明语法。
注意
字段元数据也可以为dataclass和attrs项声明。请参阅dataclasses.field和attr.ib的文档以获取更多信息。
处理项目对象¶
以下是一些使用Product项目执行的常见任务示例,该项目已在上面声明。您会注意到API与dict API非常相似。
创建项目¶
>>> product = Product(name="Desktop PC", price=1000)
>>> print(product)
Product(name='Desktop PC', price=1000)
获取字段值¶
>>> product["name"]
Desktop PC
>>> product.get("name")
Desktop PC
>>> product["price"]
1000
>>> product["last_updated"]
Traceback (most recent call last):
...
KeyError: 'last_updated'
>>> product.get("last_updated", "not set")
not set
>>> product["lala"] # getting unknown field
Traceback (most recent call last):
...
KeyError: 'lala'
>>> product.get("lala", "unknown field")
'unknown field'
>>> "name" in product # is name field populated?
True
>>> "last_updated" in product # is last_updated populated?
False
>>> "last_updated" in product.fields # is last_updated a declared field?
True
>>> "lala" in product.fields # is lala a declared field?
False
设置字段值¶
>>> product["last_updated"] = "today"
>>> product["last_updated"]
today
>>> product["lala"] = "test" # setting unknown field
Traceback (most recent call last):
...
KeyError: 'Product does not support field: lala'
访问所有填充值¶
要访问所有填充的值,只需使用典型的 dict API:
>>> product.keys()
['price', 'name']
>>> product.items()
[('price', 1000), ('name', 'Desktop PC')]
复制项目¶
要复制一个项目,你必须首先决定是要浅拷贝还是深拷贝。
如果你的项目包含可变值,如列表或字典, 浅拷贝将在所有不同的拷贝中保持对相同可变值的引用。
例如,如果你有一个带有标签列表的项目,并且你创建了该项目的浅拷贝,那么原始项目和拷贝都有相同的标签列表。向其中一个项目的标签列表中添加标签也会将标签添加到另一个项目中。
如果这不是期望的行为,请改用深拷贝。
查看 copy 获取更多信息。
要创建项目的浅拷贝,您可以在现有项目上调用
copy()
(product2 = product.copy()) 或者从现有项目实例化您的项目类
(product2 = Product(product))。
要创建深拷贝,请调用 deepcopy() 方法
(product2 = product.deepcopy())。
其他常见任务¶
从项目创建字典:
>>> dict(product) # create a dict from all populated values
{'price': 1000, 'name': 'Desktop PC'}
Creating items from dicts:
>>> Product({"name": "Laptop PC", "price": 1500})
Product(price=1500, name='Laptop PC')
>>> Product({"name": "Laptop PC", "lala": 1500}) # warning: unknown field in dict
Traceback (most recent call last):
...
KeyError: 'Product does not support field: lala'
扩展Item子类¶
您可以通过声明原始 Item 的子类来扩展 Items(以添加更多字段或更改某些字段的元数据)。
例如:
class DiscountedProduct(Product):
discount_percent = scrapy.Field(serializer=str)
discount_expiration_date = scrapy.Field()
您还可以通过使用先前的字段元数据并附加更多值或更改现有值来扩展字段元数据,如下所示:
class SpecificProduct(Product):
name = scrapy.Field(Product.fields["name"], serializer=my_serializer)
这为name字段添加(或替换)了serializer元数据键,同时保留所有先前存在的元数据值。
支持所有项目类型¶
在接收项目的代码中,例如项目管道或爬虫中间件的方法,使用ItemAdapter类和is_item()函数来编写适用于任何支持的项目类型的代码是一个良好的实践。