量化

模块

`modelopt.onnx.quantization.calib_utils`	提供基本的校准工具。
`modelopt.onnx.quantization.extensions`	加载C++扩展的模块。
`modelopt.onnx.quantization.fp8`	执行ONNX模型的FP8 GEMM仅量化，并返回ONNX ModelProto。
`modelopt.onnx.quantization.graph_utils`	提供用于QDQ放置的ONNX图相关工具。
`modelopt.onnx.quantization.gs_patching`	修补 onnx_graphsurgeon 以支持显式设置数据类型。
`modelopt.onnx.quantization.int4`	在ONNX模型上执行INT4 WoQ，并返回ONNX ModelProto。
`modelopt.onnx.quantization.int8`	对ONNX模型执行INT8量化，并返回ONNX ModelProto。
`modelopt.onnx.quantization.operators`	在ORT量化操作符之上添加或修改的QDQ操作符。
`modelopt.onnx.quantization.ort_patching`	此模块包含来自ORT的所有修补函数。
`modelopt.onnx.quantization.ort_utils`	提供基本的ORT推理工具，应被modelopt.torch.ort_client替换。
`modelopt.onnx.quantization.partitioning`	与分区ONNX模型以放置QDQ节点相关的实用工具。
`modelopt.onnx.quantization.qdq_utils`	支持插入Q/DQ节点的各种工具。
`modelopt.onnx.quantization.quant_utils`	提供一些可以在quantize()方法中使用的基本工具。
`modelopt.onnx.quantization.quantize`(onnx_path)	量化提供的ONNX模型。
`modelopt.onnx.quantization.trt_utils`	此模块包含TensorRT工具。

用于ONNX量化的模型优化子包。