模型优化器更新日志(Windows)

0.19 (2024-11-18)

新功能

  • 这是TensorRT模型优化器在Windows上的首次正式发布

  • ONNX INT4 量化: modelopt.onnx.quantization.quantize_int4 现在支持用于 DirectML 和 TensorRT* 部署的 ONNX INT4 量化。有关支持的功能和模型的详细信息,请参阅 支持矩阵

  • 使用Olive进行LLM量化:通过Olive启用了LLM量化,简化了模型优化工作流程。参考示例

  • DirectML 部署指南: 添加了 DML 部署指南。请参考 DirectML 部署

  • MMLU基准测试用于准确性评估: 引入了MMLU基准测试用于在DirectML(DML)上评估ONNX模型的准确性。

  • 已发布的量化ONNX模型集合: 在HuggingFace上发布的量化ONNX模型 NVIDIA集合

* 此版本包括实验性功能,例如ONNX INT4模型的TensorRT部署、PyTorch量化和稀疏性。这些功能目前在Windows上尚未验证。