量化

ModelOpt量化工具包支持对NVIDIA的硬件和软件堆栈进行量化。 目前,ModelOpt支持在PyTorch和ONNX框架中进行量化。

ModelOpt 基于原始精度的模拟量化来模拟、测试和优化模型精度与不同低精度格式之间的最佳权衡。为了实现实际的加速和内存节省,模拟量化的模型可以导出到部署框架,如 TensorRT 或 TensorRT-LLM。请参考 TensorRT-Model-Optimizer GitHub 仓库 获取更多详细信息和示例。

下面,您可以找到ModelOpt中量化工具包的文档: