torch.backends¶
torch.backends 控制 PyTorch 支持的各种后端的行为。
这些后端包括:
torch.backends.cpu
torch.backends.cuda
torch.backends.cudnn
torch.backends.mha
torch.backends.mps
torch.backends.mkl
torch.backends.mkldnn
torch.backends.nnpack
torch.backends.openmp
torch.backends.opt_einsum
torch.backends.xeon
torch.backends.cpu¶
torch.backends.cuda¶
- torch.backends.cuda.is_built()[源代码]¶
返回 PyTorch 是否支持 CUDA。
请注意,这并不一定意味着 CUDA 是可用的;只是如果这个 PyTorch 二进制文件在具有工作 CUDA 驱动程序和设备的机器上运行,我们将能够使用它。
- torch.backends.cuda.matmul.allow_tf32¶
一个
bool
控制是否可以在安培或更新架构的GPU上使用TensorFloat-32张量核心进行矩阵乘法。参见 安培(及以后)设备上的TensorFloat-32 (TF32)。
- torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction¶
一个
bool
控制是否允许在 fp16 GEMMs 中使用降低精度的缩减(例如,使用 fp16 累加类型)。
- torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction¶
一个
bool
控制是否允许在 bf16 GEMMs 中使用降低精度的缩减。
- torch.backends.cuda.cufft_plan_cache¶
cufft_plan_cache
包含每个CUDA设备的cuFFT计划缓存。 通过 torch.backends.cuda.cufft_plan_cache[i] 查询特定设备 i 的缓存。- torch.backends.cuda.cufft_plan_cache.clear()¶
清除 cuFFT 计划缓存。
- torch.backends.cuda.preferred_linalg_library(backend=None)[源代码]¶
覆盖PyTorch用于在CUDA线性代数操作中选择cuSOLVER和MAGMA的启发式方法。
警告
此标志是实验性的,可能会发生变化。
当 PyTorch 运行 CUDA 线性代数操作时,它通常使用 cuSOLVER 或 MAGMA 库,如果两者都可用,它会通过启发式方法决定使用哪一个。这个标志(一个
str
)允许覆盖这些启发式方法。如果设置了“cusolver”,则在可能的情况下将使用cuSOLVER。
如果设置了“magma”,则在可能的情况下将使用MAGMA。
如果设置为“default”(默认值),则在cuSOLVER和MAGMA都可用的情况下,将使用启发式方法在这两者之间进行选择。
当没有输入时,此函数返回当前首选的库。
用户可以使用环境变量 TORCH_LINALG_PREFER_CUSOLVER=1 来全局设置首选库为 cuSOLVER。 此标志仅设置首选库的初始值,首选库仍可能在脚本后面的函数调用中被覆盖。
注意:当首选某个库时,如果首选库未实现所调用的操作,则仍可能使用其他库。 如果 PyTorch 的启发式库选择对于您的应用程序输入不正确,此标志可能会获得更好的性能。
目前支持的线性代数运算符:
torch.linalg.eighvals()
- Return type
_LinalgBackend
- class torch.backends.cuda.SDPAParams¶
- torch.backends.cuda.can_use_flash_attention(params, debug=False)[源代码]¶
检查是否可以在 scaled_dot_product_attention 中使用 FlashAttention。
- Parameters
params (_SDPAParams) – 一个包含查询、键、值张量、可选的注意力掩码、dropout 率和指示注意力是否为因果关系的标志的 SDPAParams 实例。
调试 (布尔值) – 是否记录调试信息,说明为什么无法运行FlashAttention。 默认为False。
- Returns
如果FlashAttention可以使用给定的参数,则为True;否则为False。
- Return type
注意
此函数依赖于启用了CUDA的PyTorch构建。在非CUDA环境中,它将返回False。
- torch.backends.cuda.can_use_efficient_attention(params, debug=False)[源代码]¶
检查是否可以在 scaled_dot_product_attention 中使用 efficient_attention。
- Parameters
params (_SDPAParams) – 一个包含查询、键、值张量、可选的注意力掩码、dropout率以及指示注意力是否为因果关系的标志的SDPAParams实例。
调试 (布尔值) – 是否记录警告信息,说明为什么无法运行高效注意力机制。 默认为 False。
- Returns
如果可以使用 efficient_attention 和给定的参数,则为 True;否则为 False。
- Return type
注意
此函数依赖于启用了CUDA的PyTorch构建。在非CUDA环境中,它将返回False。
torch.backends.cudnn¶
- torch.backends.cudnn.allow_tf32¶
一个
bool
控制是否可以在安培或更新版本的GPU上的cuDNN卷积中使用TensorFloat-32张量核心。参见 安培(及以后)设备上的TensorFloat-32 (TF32)。
- torch.backends.cudnn.deterministic¶
一个
bool
,如果为 True,则会导致 cuDNN 仅使用确定性的卷积算法。 另请参阅torch.are_deterministic_algorithms_enabled()
和torch.use_deterministic_algorithms()
。
torch.backends.mha¶
torch.backends.mps¶
torch.backends.mkl¶
- class torch.backends.mkl.verbose(enable)[源代码]¶
按需的oneMKL详细功能。
为了更容易调试性能问题,oneMKL 可以输出包含执行信息的详细消息,例如在执行内核时的持续时间。可以通过名为 MKL_VERBOSE 的环境变量调用详细功能。然而,这种方法会在所有步骤中输出消息。这些是大量的详细消息。此外,为了调查性能问题,通常只需要一个迭代的详细消息就足够了。这种按需详细功能使得可以控制详细消息输出的范围。在下面的示例中,仅在第二次推理时输出详细消息。
import torch model(data) with torch.backends.mkl.verbose(torch.backends.mkl.VERBOSE_ON): model(data)
- Parameters
level – 详细级别 -
VERBOSE_OFF
: 禁用详细输出 -VERBOSE_ON
: 启用详细输出
torch.backends.mkldnn¶
- class torch.backends.mkldnn.verbose(level)[源代码]¶
按需的oneDNN(前身为MKL-DNN)详细功能。
为了更容易调试性能问题,oneDNN 可以在执行内核时转储包含内核大小、输入数据大小和执行持续时间等信息的详细消息。可以通过名为 DNNL_VERBOSE 的环境变量调用详细功能。然而,这种方法会在所有步骤中转储消息。这些是大量的详细消息。此外,为了调查性能问题,通常获取一次迭代的详细消息就足够了。这种按需详细功能使得可以控制详细消息转储的范围。在以下示例中,详细消息将仅在第二次推理时转储。
import torch model(data) with torch.backends.mkldnn.verbose(torch.backends.mkldnn.VERBOSE_ON): model(data)
- Parameters
level – 详细级别 -
VERBOSE_OFF
: 禁用详细输出 -VERBOSE_ON
: 启用详细输出 -VERBOSE_ON_CREATION
: 启用详细输出,包括oneDNN内核创建
torch.backends.nnpack¶
torch.backends.opt_einsum¶
- torch.backends.opt_einsum.get_opt_einsum()[源代码]¶
如果 opt_einsum 当前可用,则返回 opt_einsum 包,否则返回 None。
- Return type
- torch.backends.opt_einsum.enabled¶
一个 :class:
bool
控制是否启用 opt_einsum(默认为True
)。如果是, torch.einsum 将使用 opt_einsum(https://optimized-einsum.readthedocs.io/en/stable/path_finding.html) 如果可用,则计算用于更快性能的收缩最佳路径。如果 opt_einsum 不可用,torch.einsum 将回退到从左到右的默认收缩路径。
- torch.backends.opt_einsum.strategy¶
一个 :class:
str
,用于指定当torch.backends.opt_einsum.enabled
为True
时要尝试的策略。默认情况下,torch.einsum 将尝试“auto”策略,但也支持“greedy”和“optimal”策略。请注意,“optimal”策略在输入数量上是阶乘的,因为它尝试所有可能的路径。更多详细信息请参阅 opt_einsum 的文档 (https://optimized-einsum.readthedocs.io/en/stable/path_finding.html)。