modelopt.onnx.quantization.calib_utils
|
提供基本的校准工具。 |
modelopt.onnx.quantization.extensions
|
加载C++扩展的模块。 |
modelopt.onnx.quantization.fp8
|
执行ONNX模型的FP8 GEMM仅量化,并返回ONNX ModelProto。 |
modelopt.onnx.quantization.graph_utils
|
提供用于QDQ放置的ONNX图相关工具。 |
modelopt.onnx.quantization.gs_patching
|
修补 onnx_graphsurgeon 以支持显式设置数据类型。 |
modelopt.onnx.quantization.int4
|
在ONNX模型上执行INT4 WoQ,并返回ONNX ModelProto。 |
modelopt.onnx.quantization.int8
|
对ONNX模型执行INT8量化,并返回ONNX ModelProto。 |
modelopt.onnx.quantization.operators
|
在ORT量化操作符之上添加或修改的QDQ操作符。 |
modelopt.onnx.quantization.ort_patching
|
此模块包含来自ORT的所有修补函数。 |
modelopt.onnx.quantization.ort_utils
|
提供基本的ORT推理工具,应被modelopt.torch.ort_client替换。 |
modelopt.onnx.quantization.partitioning
|
与分区ONNX模型以放置QDQ节点相关的实用工具。 |
modelopt.onnx.quantization.qdq_utils
|
支持插入Q/DQ节点的各种工具。 |
modelopt.onnx.quantization.quant_utils
|
提供一些可以在quantize()方法中使用的基本工具。 |
modelopt.onnx.quantization.quantize(onnx_path)
|
量化提供的ONNX模型。 |
modelopt.onnx.quantization.trt_utils
|
此模块包含TensorRT工具。 |