Shortcuts

functorch.vjp

functorch.vjp(func, *primals, has_aux=False)[source]

代表向量-雅可比积,返回一个包含应用于primalsfunc结果的元组,以及一个函数,当给定cotangents时,计算func相对于primals的反向模式雅可比乘以cotangents

Parameters
  • func (Callable) – 一个接受一个或多个参数的Python函数。必须返回一个或多个张量。

  • primals (张量) – 必须是func的位置参数,且必须全部为张量。返回的函数也将计算关于这些参数的导数。

  • has_aux (bool) – 标志,表示 func 返回一个 (output, aux) 元组,其中第一个元素是要微分的函数的输出,第二个元素是 不会被微分的其他辅助对象。 默认值:False。

Returns

返回一个包含func应用于primals的输出的(output, vjp_fn)元组,以及一个使用传递给返回函数的余切计算func相对于所有primals的vjp的函数。如果has_aux is True,则返回一个(output, vjp_fn, aux)元组。 返回的vjp_fn函数将返回每个VJP的元组。

在简单情况下使用时,vjp() 的行为与 grad() 相同

>>> x = torch.randn([5])
>>> f = lambda x: x.sin().sum()
>>> (_, vjpfunc) = torch.func.vjp(f, x)
>>> grad = vjpfunc(torch.tensor(1.))[0]
>>> assert torch.allclose(grad, torch.func.grad(f)(x))

然而,vjp() 可以通过为每个输出传入余切来支持具有多个输出的函数

>>> x = torch.randn([5])
>>> f = lambda x: (x.sin(), x.cos())
>>> (_, vjpfunc) = torch.func.vjp(f, x)
>>> vjps = vjpfunc((torch.ones([5]), torch.ones([5])))
>>> assert torch.allclose(vjps[0], x.cos() + -x.sin())

vjp() 甚至可以支持输出为 Python 结构体

>>> x = torch.randn([5])
>>> f = lambda x: {'first': x.sin(), 'second': x.cos()}
>>> (_, vjpfunc) = torch.func.vjp(f, x)
>>> cotangents = {'first': torch.ones([5]), 'second': torch.ones([5])}
>>> vjps = vjpfunc(cotangents)
>>> assert torch.allclose(vjps[0], x.cos() + -x.sin())

vjp()返回的函数将计算相对于每个primals的偏导数

>>> x, y = torch.randn([5, 4]), torch.randn([4, 5])
>>> (_, vjpfunc) = torch.func.vjp(torch.matmul, x, y)
>>> cotangents = torch.randn([5, 5])
>>> vjps = vjpfunc(cotangents)
>>> assert len(vjps) == 2
>>> assert torch.allclose(vjps[0], torch.matmul(cotangents, y.transpose(0, 1)))
>>> assert torch.allclose(vjps[1], torch.matmul(x.transpose(0, 1), cotangents))

primalsf 的位置参数。所有 kwargs 使用它们的默认值

>>> x = torch.randn([5])
>>> def f(x, scale=4.):
>>>   return x * scale
>>>
>>> (_, vjpfunc) = torch.func.vjp(f, x)
>>> vjps = vjpfunc(torch.ones_like(x))
>>> assert torch.allclose(vjps[0], torch.full(x.shape, 4.))

注意

使用 PyTorch torch.no_gradvjp 一起。 案例 1:在函数内部使用 torch.no_grad

>>> def f(x):
>>>     with torch.no_grad():
>>>         c = x ** 2
>>>     return x - c

在这种情况下,vjp(f)(x) 将尊重内部的 torch.no_grad

案例2:在torch.no_grad上下文管理器中使用vjp

>>> # xdoctest: +SKIP(failing)
>>> with torch.no_grad():
>>>     vjp(f)(x)

在这种情况下,vjp 会尊重内部的 torch.no_grad,但不会尊重外部的。这是因为 vjp 是一个“函数变换”:其结果不应依赖于 f 之外的上下文管理器的结果。

警告

我们已经将functorch集成到PyTorch中。作为集成的最后一步,functorch.vjp从PyTorch 2.0开始已被弃用,并将在未来版本PyTorch >= 2.3中删除。请改用torch.func.vjp;有关更多详细信息,请参阅PyTorch 2.0发布说明和/或torch.func迁移指南https://pytorch.org/docs/master/func.migrating.html