支持矩阵
功能支持矩阵
量化格式 |
详情 |
支持的模型格式 |
部署 |
|---|---|---|---|
FP8 |
|
PyTorch, ONNX* |
TensorRT*, TensorRT-LLM |
INT8 |
|
PyTorch, ONNX* |
TensorRT*, TensorRT-LLM |
W4A16(仅INT4权重) |
|
PyTorch, ONNX |
TensorRT, TensorRT-LLM |
W4A8(INT4权重,FP8激活) |
|
PyTorch*, ONNX* |
TensorRT-LLM |
量化格式 |
详情 |
支持的模型格式 |
部署 |
|---|---|---|---|
W4A16(仅INT4权重) |
|
PyTorch*, ONNX |
ORT-DirectML, TensorRT*, TensorRT-LLM* |
W4A8(INT4权重,FP8激活) |
|
PyTorch* |
TensorRT-LLM* |
FP8 |
|
PyTorch*, ONNX* |
TensorRT*, TensorRT-LLM* |
INT8 |
|
PyTorch*, ONNX* |
TensorRT*, TensorRT-LLM* |
注意
标有星号(*)的功能被视为实验性的。
模型支持矩阵
请查看模型支持矩阵 这里。
模型 |
ONNX INT4 AWQ |
|---|---|
Llama3.1-8B-Instruct |
是 |
Phi3.5-迷你-指导 |
是 |
Mistral-7B-Instruct-v0.3 |
是 |
Llama3.2-3B-Instruct |
是 |
Gemma-2b-it |
是 |
Nemotron Mini 4B 指导 |
是 |