支持矩阵

TensorRT-LLM 优化了一系列知名模型在 NVIDIA GPU 上的性能。以下部分提供了支持的 GPU 架构列表以及 TensorRT-LLM 中实现的重要功能。

模型

下表显示了TensorRT-LLM支持的硬件。

如果未列出GPU架构，TensorRT-LLM团队不会在该架构上开发或测试软件，支持仅限于社区支持。此外，较旧的架构可能对新软件版本有限制。

	硬件兼容性
操作系统	TensorRT-LLM 需要 Linux x86_64、Linux aarch64 或 Windows。
GPU 模型架构	NVIDIA Grace Hopper Superchip NVIDIA Hopper 架构 NVIDIA Ada Lovelace Architecture NVIDIA Ampere Architecture

下表显示了TensorRT-LLM支持的软件。

	软件兼容性
容器	24.11
TensorRT	10.7
精确度	Hopper (SM90) - FP32, FP16, BF16, FP8, INT8, INT4 Ada Lovelace (SM89) - FP32, FP16, BF16, FP8, INT8, INT4 安培 (SM80, SM86) - FP32, FP16, BF16, INT8, INT4[4]

[^ReplitCode]：Replit Code 不支持 transformers 4.45+ 版本。

注意

并非所有模型都支持FP8和量化数据类型（INT8或INT4）。有关更多信息，请参阅数值精度和示例文件夹。