支持矩阵

功能支持矩阵

Linux

量化格式	详情	支持的模型格式	部署
FP8	每张量FP8权重和激活 GPU：Ada及以后	PyTorch, ONNX*	TensorRT*, TensorRT-LLM
INT8	每通道INT8权重，每张量FP8激活使用平滑量化算法 GPU：安培及更高版本	PyTorch, ONNX*	TensorRT*, TensorRT-LLM
W4A16（仅INT4权重）	分块INT4权重，F16激活使用AWQ算法 GPU：安培及以后	PyTorch, ONNX	TensorRT, TensorRT-LLM
W4A8（INT4权重，FP8激活）	分块INT8权重，每张量FP8激活使用AWQ算法 GPU：Ada及以后	PyTorch, ONNX	TensorRT-LLM

Windows

量化格式	详情	支持的模型格式	部署
W4A16（仅INT4权重）	分块INT4权重，F16激活使用AWQ算法 GPU：安培及更高版本	PyTorch*, ONNX	ORT-DirectML, TensorRT, TensorRT-LLM
W4A8（INT4权重，FP8激活）	分块INT8权重，每张量FP8激活使用AWQ算法 GPU：Ada及以后	PyTorch*	TensorRT-LLM*
FP8	每张量FP8权重和激活 GPU：Ada及以后	PyTorch, ONNX	TensorRT, TensorRT-LLM
INT8	每通道INT8权重，每张量FP8激活使用平滑量化算法 GPU：Ada及以后	PyTorch, ONNX	TensorRT, TensorRT-LLM

注意

标有星号（*）的功能被视为实验性的。

Linux

请查看模型支持矩阵这里。

Windows