使用Olive安装ModelOpt-Windows

ModelOpt-Windows 可以通过 Olive 安装和使用，以量化 ONNX 格式的大型语言模型 (LLMs)，以便与 DirectML 一起部署。按照以下步骤配置 Olive 以与 ModelOpt-Windows 一起使用。

使用ModelOpt-Windows设置Olive的步骤

1. 安装

安装Olive和模型优化器：运行以下命令以在Windows上安装带有NVIDIA模型优化器的Olive：
pip install olive-ai[nvmo]
安装先决条件： 确保所有必需的依赖项都已安装。使用以下命令安装必要的包：
$ pip install onnxruntime-genai-directml>=0.4.0
$ pip install onnxruntime-directml==1.20.0
此外，请确保满足TensorRT模型优化器 - Windows的依赖项，如将ModelOpt-Windows作为独立工具包安装中所述。

2. 为TensorRT模型优化器配置Olive – Windows

新橄榄通行证： 橄榄引入了一种新的通行证，NVModelOptQuantization（或“nvmo”），专门设计用于使用TensorRT模型优化器进行模型量化——Windows版。

添加到配置： 要将量化应用于您的目标模型，请在Olive配置文件中包含此步骤。[参考phi3 Olive示例]。

3. 在Olive配置中设置其他通行证

添加其他通行证： 根据需要为输入模型的所需Olive工作流程在Olive配置文件中添加额外的通行证。[参考phi3 Olive示例]

4. 运行优化

执行优化： 要开始优化过程，请运行以下命令：
$ olive run --config <config json> --setup
$ olive run --config <config json>
或者，您可以使用以下Python代码执行优化：
from olive.workflows import run as olive_run

olive_run("config.json")

注意:

目前，TensorRT-Model Optimizer - Windows 仅支持在 Olive 工作流程中基于 Onnx Runtime GenAI 的模型。