DirectML 部署

一旦在Windows上使用TensorRT模型优化器对ONNX FP16模型进行量化，生成的量化ONNX模型可以通过ONNX Runtime GenAI或ONNX Runtime部署在DirectML后端。

ONNX Runtime GenAI

ONNX Runtime GenAI 提供了一个简化的解决方案，用于部署生成式 AI 模型，具有优化的性能和功能。

主要特点:

入门指南:

请参考ONNX Runtime GenAI文档以获取有关安装、设置和使用的深入指南。

示例:

或者，量化模型可以使用ONNX Runtime进行部署。此方法需要在生成循环的每次迭代中手动管理模型输入，包括KV缓存输入和注意力掩码。

示例和文档

有关更多详细信息和示例，请参阅ONNX Runtime文档。

来自ModelOpt-Windows的即用型优化ONNX模型可在HuggingFace的NVIDIA collections中找到。这些模型可以使用DirectML后端进行部署。请按照发布模型时提供的说明进行部署。