DirectML 部署
一旦在Windows上使用TensorRT模型优化器对ONNX FP16模型进行量化,生成的量化ONNX模型可以通过ONNX Runtime GenAI或ONNX Runtime部署在DirectML后端。
ONNX Runtime GenAI
ONNX Runtime GenAI 提供了一个简化的解决方案,用于部署生成式 AI 模型,具有优化的性能和功能。
主要特点:
增强优化:支持生成式AI的特定优化,包括高效的KV缓存管理和logits处理。
灵活的采样方法:提供多种采样技术,如贪婪搜索、束搜索和top-p/top-k采样,以适应不同的部署需求。
控制选项:使用高级的
generate()方法进行快速部署,或在循环中执行模型的每次迭代以实现细粒度控制。多语言API支持: 提供Python、C#和C/C++的API,允许在一系列应用程序中无缝集成。
入门指南:
请参考ONNX Runtime GenAI文档以获取有关安装、设置和使用的深入指南。
示例:
探索ORT GenAI示例仓库中的推理脚本,使用单个函数调用生成输出序列。
按照ORT GenAI教程的步骤,使用ORT GenAI包进行DirectML推理的逐步指导(例如,参考Phi3教程)。
ONNX 运行时
或者,量化模型可以使用ONNX Runtime进行部署。此方法需要在生成循环的每次迭代中手动管理模型输入,包括KV缓存输入和注意力掩码。
示例和文档
有关更多详细信息和示例,请参阅ONNX Runtime文档。
优化的ONNX模型集合
来自ModelOpt-Windows的即用型优化ONNX模型可在HuggingFace的NVIDIA collections中找到。这些模型可以使用DirectML后端进行部署。请按照发布模型时提供的说明进行部署。