DirectML 部署

一旦在Windows上使用TensorRT模型优化器对ONNX FP16模型进行量化,生成的量化ONNX模型可以通过ONNX Runtime GenAIONNX Runtime部署在DirectML后端。

ONNX Runtime GenAI

ONNX Runtime GenAI 提供了一个简化的解决方案,用于部署生成式 AI 模型,具有优化的性能和功能。

主要特点:

  • 增强优化:支持生成式AI的特定优化,包括高效的KV缓存管理和logits处理。

  • 灵活的采样方法:提供多种采样技术,如贪婪搜索、束搜索和top-p/top-k采样,以适应不同的部署需求。

  • 控制选项:使用高级的generate()方法进行快速部署,或在循环中执行模型的每次迭代以实现细粒度控制。

  • 多语言API支持: 提供Python、C#和C/C++的API,允许在一系列应用程序中无缝集成。

入门指南:

请参考ONNX Runtime GenAI文档以获取有关安装、设置和使用的深入指南。

示例:

  • 探索ORT GenAI示例仓库中的推理脚本,使用单个函数调用生成输出序列。

  • 按照ORT GenAI教程的步骤,使用ORT GenAI包进行DirectML推理的逐步指导(例如,参考Phi3教程)。

ONNX 运行时

或者,量化模型可以使用ONNX Runtime进行部署。此方法需要在生成循环的每次迭代中手动管理模型输入,包括KV缓存输入和注意力掩码。

示例和文档

有关更多详细信息和示例,请参阅ONNX Runtime文档

优化的ONNX模型集合

来自ModelOpt-Windows的即用型优化ONNX模型可在HuggingFace的NVIDIA collections中找到。这些模型可以使用DirectML后端进行部署。请按照发布模型时提供的说明进行部署。