量化

模块

modelopt.onnx.quantization.calib_utils

提供基本的校准工具。

modelopt.onnx.quantization.extensions

加载C++扩展的模块。

modelopt.onnx.quantization.fp8

执行ONNX模型的FP8 GEMM仅量化,并返回ONNX ModelProto。

modelopt.onnx.quantization.graph_utils

提供用于QDQ放置的ONNX图相关工具。

modelopt.onnx.quantization.gs_patching

修补 onnx_graphsurgeon 以支持显式设置数据类型。

modelopt.onnx.quantization.int4

在ONNX模型上执行INT4 WoQ,并返回ONNX ModelProto。

modelopt.onnx.quantization.int8

对ONNX模型执行INT8量化,并返回ONNX ModelProto。

modelopt.onnx.quantization.operators

在ORT量化操作符之上添加或修改的QDQ操作符。

modelopt.onnx.quantization.ort_patching

此模块包含来自ORT的所有修补函数。

modelopt.onnx.quantization.ort_utils

提供基本的ORT推理工具,应被modelopt.torch.ort_client替换。

modelopt.onnx.quantization.partitioning

与分区ONNX模型以放置QDQ节点相关的实用工具。

modelopt.onnx.quantization.qdq_utils

支持插入Q/DQ节点的各种工具。

modelopt.onnx.quantization.quant_utils

提供一些可以在quantize()方法中使用的基本工具。

modelopt.onnx.quantization.quantize(onnx_path)

量化提供的ONNX模型。

modelopt.onnx.quantization.trt_utils

此模块包含TensorRT工具。

用于ONNX量化的模型优化子包。