torch_tensorrt.runtime¶

函数¶

torch_tensorrt.runtime.set_multi_device_safe_mode(mode: bool) → _MultiDeviceSafeModeContextManager[source]¶

将运行时（仅限Python和默认）设置为多设备安全模式

在系统上有多个设备可用的情况下，为了确保运行时能够安全执行，需要进行额外的设备检查。这些检查可能会影响性能，因此它们是可选的。用于抑制在多设备环境中不安全运行的警告。

Parameters: mode (bool) – 启用 (True) 或禁用 (False) 多设备检查

示例

with torch_tensorrt.runtime.set_multi_device_safe_mode(True):
    results = trt_compiled_module(*inputs)

类¶

class torch_tensorrt.runtime.TorchTensorRTModule(**kwargs: Dict[str, Any])[source]¶

TorchTensorRTModule 是一个包含任意 TensorRT 引擎的 PyTorch 模块。

该模块由Torch-TensorRT运行时支持，并且完全兼容FX / Python部署（只需在应用程序中import torch_tensorrt）以及TorchScript / C++部署，因为TorchTensorRTModule可以传递给torch.jit.trace然后保存。

前向函数简单地是 forward(*args: torch.Tensor) -> Tuple[torch.Tensor]，其中内部实现是 return Tuple(torch.ops.tensorrt.execute_engine(list(inputs), self.engine))

> 注意：TorchTensorRTModule 仅支持使用显式批次构建的引擎

Variables

name (str) – 模块的名称（便于调试）
engine (torch.classes.tensorrt.Engine) – Torch-TensorRT TensorRT 引擎实例，管理 [反]序列化、设备配置、性能分析
input_binding_names (List[str]) – 输入TensorRT引擎绑定名称的列表，按照它们传递给TRT模块的顺序排列
output_binding_names (List[str]) – 输出TensorRT引擎绑定名称的列表，按它们应返回的顺序排列

__init__(**kwargs: Dict[str, Any]) → Any¶: 初始化内部模块状态，由nn.Module和ScriptModule共享。

forward(**kwargs: Dict[str, Any]) → Any¶

定义每次调用时执行的计算。

应该由所有子类覆盖。

注意

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行已注册的钩子，而后者则默默地忽略它们。

get_extra_state(**kwargs: Dict[str, Any]) → Any¶

返回任何额外的状态以包含在模块的state_dict中。

如果需要存储额外状态，请为您的模块实现此功能和相应的set_extra_state()。此函数在构建模块的state_dict()时调用。

请注意，额外的状态应该是可picklable的，以确保state_dict的序列化正常工作。我们仅保证对序列化张量的向后兼容性；如果其他对象的序列化pickle形式发生变化，可能会破坏向后兼容性。

Returns: 任何要存储在模块的state_dict中的额外状态
Return type: 对象

set_extra_state(**kwargs: Dict[str, Any]) → Any¶

设置加载的state_dict中包含的额外状态。

此函数从load_state_dict()调用，以处理在state_dict中找到的任何额外状态。如果您需要在其state_dict中存储额外状态，请为您的模块实现此函数和相应的get_extra_state()。

Parameters: state (dict) – 来自 state_dict 的额外状态

class torch_tensorrt.runtime.PythonTorchTensorRTModule(serialized_engine: ~typing.Optional[bytes] = None, input_binding_names: ~typing.Optional[~typing.List[str]] = None, output_binding_names: ~typing.Optional[~typing.List[str]] = None, *, name: str = '', settings: ~torch_tensorrt.dynamo._settings.CompilationSettings = CompilationSettings(enabled_precisions={<dtype.f32: 7>}, debug=False, workspace_size=0, min_block_size=5, torch_executed_ops=set(), pass_through_build_failures=False, max_aux_streams=None, version_compatible=False, optimization_level=None, use_python_runtime=False, truncate_double=False, use_fast_partitioner=True, enable_experimental_decompositions=False, device=Device(type=DeviceType.GPU, gpu_id=0), require_full_compilation=False, disable_tf32=False, assume_dynamic_shape_support=False, sparse_weights=False, engine_capability=<EngineCapability.STANDARD: 1>, num_avg_timing_iters=1, dla_sram_size=1048576, dla_local_dram_size=1073741824, dla_global_dram_size=536870912, dryrun=False, hardware_compatible=False, timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin', lazy_engine_init=False, cache_built_engines=False, reuse_cached_engines=False, use_explicit_typing=False, use_fp32_acc=False, refit_identical_engine_weights=False, strip_engine_weights=False, immutable_weights=True, enable_weight_streaming=False, enable_cross_compile_for_windows=False), weight_name_map: ~typing.Optional[dict[typing.Any, typing.Any]] = None)[source]¶

PythonTorchTensorRTModule 是一个包含任意 TensorRT 引擎的 PyTorch 模块。

该模块由Torch-TensorRT运行时支持，仅与FX / Dynamo / Python部署兼容。该模块无法通过torch.jit.trace序列化为torchscript以用于C++部署。

__init__(serialized_engine: ~typing.Optional[bytes] = None, input_binding_names: ~typing.Optional[~typing.List[str]] = None, output_binding_names: ~typing.Optional[~typing.List[str]] = None, *, name: str = '', settings: ~torch_tensorrt.dynamo._settings.CompilationSettings = CompilationSettings(enabled_precisions={<dtype.f32: 7>}, debug=False, workspace_size=0, min_block_size=5, torch_executed_ops=set(), pass_through_build_failures=False, max_aux_streams=None, version_compatible=False, optimization_level=None, use_python_runtime=False, truncate_double=False, use_fast_partitioner=True, enable_experimental_decompositions=False, device=Device(type=DeviceType.GPU, gpu_id=0), require_full_compilation=False, disable_tf32=False, assume_dynamic_shape_support=False, sparse_weights=False, engine_capability=<EngineCapability.STANDARD: 1>, num_avg_timing_iters=1, dla_sram_size=1048576, dla_local_dram_size=1073741824, dla_global_dram_size=536870912, dryrun=False, hardware_compatible=False, timing_cache_path='/tmp/torch_tensorrt_engine_cache/timing_cache.bin', lazy_engine_init=False, cache_built_engines=False, reuse_cached_engines=False, use_explicit_typing=False, use_fp32_acc=False, refit_identical_engine_weights=False, strip_engine_weights=False, immutable_weights=True, enable_weight_streaming=False, enable_cross_compile_for_windows=False), weight_name_map: ~typing.Optional[dict[typing.Any, typing.Any]] = None)[source]¶

接受一个名称、目标设备、序列化的TensorRT引擎以及绑定名称/顺序，并围绕它构建一个PyTorch torch.nn.Module。使用TensorRT Python API来运行引擎

Parameters

serialized_engine (bytes) – 以字节数组形式序列化的TensorRT引擎
input_binding_names (List[str]) – 输入TensorRT引擎绑定名称的列表，按照它们传递给TRT模块的顺序排列
output_binding_names (List[str]) – 输出TensorRT引擎绑定名称的列表，按它们应返回的顺序排列

Keyword Arguments

name (str) – 模块的名称
设置 (CompilationSettings) – 用于编译引擎的设置，如果未传递对象，则假定引擎是使用默认编译设置构建的
weight_name_map (dict) – 引擎权重名称到state_dict权重名称的映射

示例

trt_module = PythonTorchTensorRTModule(
    engine_str,
    input_binding_names=["x"],
    output_binding_names=["output"],
    name="my_module",
    settings=CompilationSettings(device=torch.cuda.current_device)
)

disable_profiling() → None[source]¶: 禁用TensorRT性能分析。

enable_profiling(profiler: IProfiler = None) → None[source]¶: 启用TensorRT性能分析。调用此函数后，TensorRT将在每次前向运行时在stdout中报告每层所花费的时间。

forward(*inputs: Tensor) → Union[Tensor, Tuple[Tensor, ...]][source]¶

定义每次调用时执行的计算。

应该由所有子类覆盖。

注意

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行已注册的钩子，而后者则默默地忽略它们。

get_layer_info() → str[source]¶: 获取引擎的层信息。仅支持TRT > 8.2。

validate_input_shapes(inputs: Sequence[Tensor]) → bool[source]¶: 验证前向函数的输入形状是否已更改