模型优化器更新日志(Windows)
0.19 (2024-11-18)
新功能
这是TensorRT模型优化器在Windows上的首次正式发布
ONNX INT4 量化:
modelopt.onnx.quantization.quantize_int4现在支持用于 DirectML 和 TensorRT* 部署的 ONNX INT4 量化。有关支持的功能和模型的详细信息,请参阅 支持矩阵。使用Olive进行LLM量化:通过Olive启用了LLM量化,简化了模型优化工作流程。参考示例
DirectML 部署指南: 添加了 DML 部署指南。请参考 DirectML 部署。
MMLU基准测试用于准确性评估: 引入了MMLU基准测试用于在DirectML(DML)上评估ONNX模型的准确性。
已发布的量化ONNX模型集合: 在HuggingFace上发布的量化ONNX模型 NVIDIA集合。
* 此版本包括实验性功能,例如ONNX INT4模型的TensorRT部署、PyTorch量化和稀疏性。这些功能目前在Windows上尚未验证。