使用Olive安装ModelOpt-Windows

ModelOpt-Windows 可以通过 Olive 安装和使用,以量化 ONNX 格式的大型语言模型 (LLMs),以便与 DirectML 一起部署。按照以下步骤配置 Olive 以与 ModelOpt-Windows 一起使用。

使用ModelOpt-Windows设置Olive的步骤

1. 安装

  • 安装Olive和模型优化器:运行以下命令以在Windows上安装带有NVIDIA模型优化器的Olive:

    pip install olive-ai[nvmo]
    
  • 安装先决条件: 确保所有必需的依赖项都已安装。使用以下命令安装必要的包:

    $ pip install onnxruntime-genai-directml>=0.4.0
    $ pip install onnxruntime-directml==1.20.0
    

    此外,请确保满足TensorRT模型优化器 - Windows的依赖项,如将ModelOpt-Windows作为独立工具包安装中所述。

2. 为TensorRT模型优化器配置Olive – Windows

  • 新橄榄通行证: 橄榄引入了一种新的通行证,NVModelOptQuantization(或“nvmo”),专门设计用于使用TensorRT模型优化器进行模型量化——Windows版。

  • 添加到配置: 要将量化应用于您的目标模型,请在Olive配置文件中包含此步骤。[参考phi3 Olive示例]。

3. 在Olive配置中设置其他通行证

  • 添加其他通行证: 根据需要为输入模型的所需Olive工作流程在Olive配置文件中添加额外的通行证。[参考phi3 Olive示例]

4. 运行优化

  • 执行优化: 要开始优化过程,请运行以下命令:

    $ olive run --config <config json> --setup
    $ olive run --config <config json>
    

    或者,您可以使用以下Python代码执行优化:

    from olive.workflows import run as olive_run
    
    olive_run("config.json")
    

注意:

  1. 目前,TensorRT-Model Optimizer - Windows 仅支持在 Olive 工作流程中基于 Onnx Runtime GenAI 的模型。