量化

ModelOpt量化工具包支持对NVIDIA的硬件和软件堆栈进行量化。目前，ModelOpt支持在PyTorch和ONNX框架中进行量化。

ModelOpt 基于原始精度的模拟量化来模拟、测试和优化模型精度与不同低精度格式之间的最佳权衡。为了实现实际的加速和内存节省，模拟量化的模型可以导出到部署框架，如 TensorRT 或 TensorRT-LLM。请参考 TensorRT-Model-Optimizer GitHub 仓库获取更多详细信息和示例。

下面，您可以找到ModelOpt中量化工具包的文档：