支持矩阵

TensorRT-LLM 优化了一系列知名模型在 NVIDIA GPU 上的性能。以下部分提供了支持的 GPU 架构列表以及 TensorRT-LLM 中实现的重要功能。

模型

LLM 模型

多模态模型 [2]

硬件

下表显示了TensorRT-LLM支持的硬件。

如果未列出GPU架构,TensorRT-LLM团队不会在该架构上开发或测试软件,支持仅限于社区支持。 此外,较旧的架构可能对新软件版本有限制。

硬件兼容性

操作系统

TensorRT-LLM 需要 Linux x86_64、Linux aarch64 或 Windows。

GPU 模型架构

软件

下表显示了TensorRT-LLM支持的软件。

软件兼容性

容器

24.11

TensorRT

10.7

精确度

  • Hopper (SM90) - FP32, FP16, BF16, FP8, INT8, INT4

  • Ada Lovelace (SM89) - FP32, FP16, BF16, FP8, INT8, INT4

  • 安培 (SM80, SM86) - FP32, FP16, BF16, INT8, INT4[4]

[^ReplitCode]:Replit Code 不支持 transformers 4.45+ 版本。

注意

并非所有模型都支持FP8和量化数据类型(INT8或INT4)。有关更多信息,请参阅数值精度示例文件夹。