使用Olive安装ModelOpt-Windows
ModelOpt-Windows 可以通过 Olive 安装和使用,以量化 ONNX 格式的大型语言模型 (LLMs),以便与 DirectML 一起部署。按照以下步骤配置 Olive 以与 ModelOpt-Windows 一起使用。
使用ModelOpt-Windows设置Olive的步骤
1. 安装
安装Olive和模型优化器:运行以下命令以在Windows上安装带有NVIDIA模型优化器的Olive:
pip install olive-ai[nvmo]安装先决条件: 确保所有必需的依赖项都已安装。使用以下命令安装必要的包:
$ pip install onnxruntime-genai-directml>=0.4.0 $ pip install onnxruntime-directml==1.20.0此外,请确保满足TensorRT模型优化器 - Windows的依赖项,如将ModelOpt-Windows作为独立工具包安装中所述。
2. 为TensorRT模型优化器配置Olive – Windows
新橄榄通行证: 橄榄引入了一种新的通行证,
NVModelOptQuantization(或“nvmo”),专门设计用于使用TensorRT模型优化器进行模型量化——Windows版。添加到配置: 要将量化应用于您的目标模型,请在Olive配置文件中包含此步骤。[参考phi3 Olive示例]。
3. 在Olive配置中设置其他通行证
添加其他通行证: 根据需要为输入模型的所需Olive工作流程在Olive配置文件中添加额外的通行证。[参考phi3 Olive示例]
4. 运行优化
执行优化: 要开始优化过程,请运行以下命令:
$ olive run --config <config json> --setup $ olive run --config <config json>或者,您可以使用以下Python代码执行优化:
from olive.workflows import run as olive_run olive_run("config.json")
注意:
目前,TensorRT-Model Optimizer - Windows 仅支持在 Olive 工作流程中基于 Onnx Runtime GenAI 的模型。