支持矩阵

功能支持矩阵

量化格式

详情

支持的模型格式

部署

FP8

  • 每张量FP8权重和激活

  • GPU:Ada及以后

PyTorch, ONNX*

TensorRT*, TensorRT-LLM

INT8

  • 每通道INT8权重,每张量FP8激活

  • 使用平滑量化算法

  • GPU:安培及更高版本

PyTorch, ONNX*

TensorRT*, TensorRT-LLM

W4A16(仅INT4权重)

  • 分块INT4权重,F16激活

  • 使用AWQ算法

  • GPU:安培及以后

PyTorch, ONNX

TensorRT, TensorRT-LLM

W4A8(INT4权重,FP8激活)

  • 分块INT8权重,每张量FP8激活

  • 使用AWQ算法

  • GPU:Ada及以后

PyTorch*, ONNX*

TensorRT-LLM

量化格式

详情

支持的模型格式

部署

W4A16(仅INT4权重)

  • 分块INT4权重,F16激活

  • 使用AWQ算法

  • GPU:安培及更高版本

PyTorch*, ONNX

ORT-DirectML, TensorRT*, TensorRT-LLM*

W4A8(INT4权重,FP8激活)

  • 分块INT8权重,每张量FP8激活

  • 使用AWQ算法

  • GPU:Ada及以后

PyTorch*

TensorRT-LLM*

FP8

  • 每张量FP8权重和激活

  • GPU:Ada及以后

PyTorch*, ONNX*

TensorRT*, TensorRT-LLM*

INT8

  • 每通道INT8权重,每张量FP8激活

  • 使用平滑量化算法

  • GPU:Ada及以后

PyTorch*, ONNX*

TensorRT*, TensorRT-LLM*

注意

标有星号(*)的功能被视为实验性的。

模型支持矩阵

请查看模型支持矩阵 这里

模型

ONNX INT4 AWQ

Llama3.1-8B-Instruct

Phi3.5-迷你-指导

Mistral-7B-Instruct-v0.3

Llama3.2-3B-Instruct

Gemma-2b-it

Nemotron Mini 4B 指导