torch.nested¶
介绍¶
警告
PyTorch API 中的嵌套张量处于原型阶段,并将在不久的将来发生变化。
NestedTensor 允许用户将一个张量列表打包成一个单一的、高效的数据结构。
输入张量的唯一约束是它们的维度必须匹配。
这使得元数据表示更加高效,并能够访问专门构建的内核。
NestedTensors的一个应用是在各种领域中表示顺序数据。
虽然传统的方法是对可变长度的序列进行填充,但NestedTensor
使用户能够绕过填充。调用嵌套张量操作的API与常规的torch.Tensor
没有区别,这应该允许与现有模型无缝集成,
主要区别在于输入的构造。
由于这是一个原型功能,支持的操作仍然有限。不过,我们欢迎问题反馈、功能请求和贡献。有关贡献的更多信息可以在这个Readme中找到。
构造¶
构造过程简单,只需将一个张量列表传递给 torch.nested.nested_tensor
构造函数。
>>> a, b = torch.arange(3), torch.arange(5) + 3
>>> a
tensor([0, 1, 2])
>>> b
tensor([3, 4, 5, 6, 7])
>>> nt = torch.nested.nested_tensor([a, b])
>>> nt
nested_tensor([
tensor([0, 1, 2]),
tensor([3, 4, 5, 6, 7])
])
数据类型、设备以及是否需要梯度可以通过通常的关键字参数来选择。
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32, device="cuda", requires_grad=True)
>>> nt
nested_tensor([
tensor([0., 1., 2.], device='cuda:0', requires_grad=True),
tensor([3., 4., 5., 6., 7.], device='cuda:0', requires_grad=True)
], device='cuda:0', requires_grad=True)
类似于 torch.as_tensor
,torch.nested.as_nested_tensor
可以用于保留从传递给构造函数的张量中的自动求导历史。更多信息,请参阅关于
嵌套张量构造函数和转换函数的部分。
为了形成一个有效的NestedTensor,所有传递的张量需要在维度上匹配,但其他属性不需要匹配。
>>> a = torch.randn(3, 50, 70) # 图像 1
>>> b = torch.randn(3, 128, 64) # 图像 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt.dim()
4
如果其中一个维度不匹配,构造函数会抛出错误。
>>> a = torch.randn(50, 128) # 文本 1
>>> b = torch.randn(3, 128, 64) # 图像 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
Traceback (most recent call last):
File "" , line 1, in
RuntimeError: All Tensors given to nested_tensor must have the same dimension. Found dimension 3 for Tensor at index 1 and dimension 2 for Tensor at index 0.
请注意,传递的张量正在被复制到一块连续的内存中。生成的NestedTensor会分配新的内存来存储它们,并且不会保留引用。
目前我们仅支持一级嵌套,即一个简单的、扁平的Tensor列表。未来我们可以添加对多级嵌套的支持,例如完全由Tensor列表组成的列表。请注意,对于此扩展,重要的是在所有条目中保持均匀的嵌套级别,以使生成的NestedTensor具有明确定义的维度。如果您需要此功能,请随时提出功能请求,以便我们跟踪并相应地进行规划。
大小¶
尽管NestedTensor不支持.size()
(或.shape
),但如果维度i是规则的,它支持.size(i)
。
>>> a = torch.randn(50, 128) # 文本 1
>>> b = torch.randn(32, 128) # 文本 2
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt.size(0)
2
>>> nt.size(1)
Traceback (most recent call last):
File "" , line 1, in
RuntimeError: Given dimension 1 is irregular and does not have a size.
>>> nt.size(2)
128
如果所有维度都是规则的,则嵌套张量在语义上应与常规的 torch.Tensor
无法区分。
>>> a = torch.randn(20, 128) # 文本 1
>>> nt = torch.nested.nested_tensor([a, a], dtype=torch.float32)
>>> nt.size(0)
2
>>> nt.size(1)
20
>>> nt.size(2)
128
>>> torch.stack(nt.unbind()).size()
torch.Size([2, 20, 128])
>>> torch.stack([a, a]).size()
torch.Size([2, 20, 128])
>>> torch.equal(torch.stack(nt.unbind()), torch.stack([a, a]))
True
在未来,我们可能会使检测这种情况并进行无缝转换变得更加容易。
如果您需要此功能(或任何其他相关功能),请提交功能请求。
解绑¶
unbind
允许你检索成分的视图。
>>> import torch
>>> a = torch.randn(2, 3)
>>> b = torch.randn(3, 4)
>>> nt = torch.nested.nested_tensor([a, b], dtype=torch.float32)
>>> nt
nested_tensor([
tensor([[ 1.2286, -1.2343, -1.4842],
[-0.7827, 0.6745, 0.0658]]),
tensor([[-1.1247, -0.4078, -1.0633, 0.8083],
[-0.2871, -0.2980, 0.5559, 1.9885],
[ 0.4074, 2.4855, 0.0733, 0.8285]])
])
>>> nt.unbind()
(tensor([[ 1.2286, -1.2343, -1.4842],
[-0.7827, 0.6745, 0.0658]]), tensor([[-1.1247, -0.4078, -1.0633, 0.8083],
[-0.2871, -0.2980, 0.5559, 1.9885],
[ 0.4074, 2.4855, 0.0733, 0.8285]]))
>>> nt.unbind()[0] is not a
True
>>> nt.unbind()[0].mul_(3)
tensor([[ 3.6858, -3.7030, -4.4525],
[-2.3481, 2.0236, 0.1975]])
>>> nt
nested_tensor([
tensor([[ 3.6858, -3.7030, -4.4525],
[-2.3481, 2.0236, 0.1975]]),
tensor([[-1.1247, -0.4078, -1.0633, 0.8083],
[-0.2871, -0.2980, 0.5559, 1.9885],
[ 0.4074, 2.4855, 0.0733, 0.8285]])
])
请注意,nt.unbind()[0]
不是一个副本,而是底层内存的一个切片,表示 NestedTensor 的第一个条目或组成部分。
嵌套张量构造函数和转换函数¶
以下函数与嵌套张量相关:
- torch.nested.nested_tensor(tensor_list, *, dtype=None, layout=None, device=None, requires_grad=False, pin_memory=False)[源代码]¶
构建一个没有自动求导历史记录的嵌套张量(也称为“叶子张量”,参见 自动求导机制),从
tensor_list
,一个张量列表中构建。- Parameters
tensor_list (列表[类数组]) – 一个张量列表,或者可以传递给 torch.tensor 的任何内容,
维度。(其中列表的每个元素具有相同的)–
- Keyword Arguments
dtype (
torch.dtype
, 可选) – 返回的嵌套张量所需的数据类型。 默认值:如果为 None,则与列表中最左侧张量的torch.dtype
相同。布局 (
torch.layout
, 可选) – 返回的嵌套张量所需的布局。 仅支持分片和锯齿状布局。默认值:如果为 None,则为分片布局。设备 (
torch.device
, 可选) – 返回的嵌套张量所需的设备。 默认值:如果为 None,则与列表中最左侧张量的torch.device
相同requires_grad (布尔值, 可选) – 如果 autograd 应该记录对返回的嵌套张量的操作。默认值:
False
。pin_memory (bool, 可选) – 如果设置,返回的嵌套张量将分配在固定内存中。仅适用于CPU张量。默认值:
False
。
- Return type
示例:
>>> a = torch.arange(3, dtype=torch.float, requires_grad=True) >>> b = torch.arange(5, dtype=torch.float, requires_grad=True) >>> nt = torch.nested.nested_tensor([a, b], requires_grad=True) >>> nt.is_leaf True
- torch.nested.as_nested_tensor(tensor_list, dtype=None, device=None, layout=None)[源代码]¶
从
tensor_list
列表中的张量构建一个保留自动求导历史的嵌套张量。注意
由于当前嵌套张量语义,此函数始终会复制列表中的张量。
- Parameters
tensor_list (列表[Tensor]) – 具有相同ndim的张量列表
- Keyword Arguments
dtype (
torch.dtype
, 可选) – 返回的嵌套张量的所需类型。 默认值:如果为 None,则与列表中最左侧张量的torch.dtype
相同。设备 (
torch.device
, 可选) – 返回的嵌套张量所需的设备。 默认值:如果为 None,则与列表中最左侧张量的torch.device
相同布局 (
torch.layout
, 可选) – 返回的嵌套张量所需的布局。 仅支持分片和锯齿状布局。默认值:如果为 None,则为分片布局。
- Return type
示例:
>>> a = torch.arange(3, dtype=torch.float, requires_grad=True) >>> b = torch.arange(5, dtype=torch.float, requires_grad=True) >>> nt = torch.nested.as_nested_tensor([a, b]) >>> nt.is_leaf False >>> fake_grad = torch.nested.nested_tensor([torch.ones_like(a), torch.zeros_like(b)]) >>> nt.backward(fake_grad) >>> a.grad tensor([1., 1., 1.]) >>> b.grad tensor([0., 0., 0., 0., 0.])
- torch.nested.to_padded_tensor(input, padding, output_size=None, out=None) 张量 ¶
返回一个新的(非嵌套的)张量,通过填充
input
嵌套张量。 前面的条目将填充嵌套数据, 而后面的条目将被填充。警告
to_padded_tensor()
总是复制底层数据, 因为嵌套张量和非嵌套张量在内存布局上有所不同。- Parameters
填充 (float) – 用于尾部条目的填充值。
- Keyword Arguments
示例:
>>> nt = torch.nested.nested_tensor([torch.randn((2, 5)), torch.randn((3, 4))]) nested_tensor([ tensor([[ 1.6862, -1.1282, 1.1031, 0.0464, -1.3276], [-1.9967, -1.0054, 1.8972, 0.9174, -1.4995]]), tensor([[-1.8546, -0.7194, -0.2918, -0.1846], [ 0.2773, 0.8793, -0.5183, -0.6447], [ 1.8009, 1.8468, -0.9832, -1.5272]]) ]) >>> pt_infer = torch.nested.to_padded_tensor(nt, 0.0) tensor([[[ 1.6862, -1.1282, 1.1031, 0.0464, -1.3276], [-1.9967, -1.0054, 1.8972, 0.9174, -1.4995], [ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000]], [[-1.8546, -0.7194, -0.2918, -0.1846, 0.0000], [ 0.2773, 0.8793, -0.5183, -0.6447, 0.0000], [ 1.8009, 1.8468, -0.9832, -1.5272, 0.0000]]]) >>> pt_large = torch.nested.to_padded_tensor(nt, 1.0, (2, 4, 6)) tensor([[[ 1.6862, -1.1282, 1.1031, 0.0464, -1.3276, 1.0000], [-1.9967, -1.0054, 1.8972, 0.9174, -1.4995, 1.0000], [ 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000], [ 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000]], [[-1.8546, -0.7194, -0.2918, -0.1846, 1.0000, 1.0000], [ 0.2773, 0.8793, -0.5183, -0.6447, 1.0000, 1.0000], [ 1.8009, 1.8468, -0.9832, -1.5272, 1.0000, 1.0000], [ 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000]]]) >>> pt_small = torch.nested.to_padded_tensor(nt, 2.0, (2, 2, 2)) RuntimeError: Value in output_size is less than NestedTensor padded size. Truncation is not supported.
支持的操作¶
在本节中,我们总结了目前对NestedTensor支持的操作及其任何约束。
PyTorch 操作 |
约束条件 |
---|---|
支持两个(>= 3d)嵌套张量之间的矩阵乘法,其中最后两个维度是矩阵维度,并且前导(批次)维度具有相同的大小(即,目前不支持批次维度的广播)。 |
|
支持两个3维嵌套张量的批量矩阵乘法。 |
|
支持三维嵌套输入和密集的二维权重矩阵。 |
|
支持沿除 dim=0 之外的所有维度进行 softmax。 |
|
行为与常规张量相同。 |
|
行为与常规张量相同。 |
|
|
行为与常规张量相同。 |
|
行为与常规张量相同。 |
|
行为与常规张量相同。 |
行为与常规张量相同。 |
|
行为与常规张量相同。 |
|
行为与常规张量相同。 |
|
行为与常规张量相同。 |
|
支持两个嵌套张量的逐元素相减。 |
|
支持两个嵌套张量的逐元素相加。支持标量与嵌套张量的相加。 |
|
支持两个嵌套张量的逐元素乘法。支持嵌套张量与标量的乘法。 |
|
支持沿所有维度进行选择。 |
|
行为与常规张量相同。 |
|
|
行为与常规张量相同。 |
仅支持沿 |
|
支持在保留 |
|
与 |
|
支持对除 |
|
新形状的规则与 |
|
行为类似于常规张量;返回一个新的空嵌套张量(即具有未初始化值),其嵌套结构与输入匹配。 |
|
行为类似于常规张量;返回一个根据标准正态分布随机初始化的新嵌套张量,其嵌套结构与输入相匹配。 |
|
行为类似于常规张量;返回一个与输入的嵌套结构相匹配的、所有值均为零的新嵌套张量。 |
|
参数 |