固定的后端版本

生成式AI领域的推理引擎正在快速发展，以提升性能并解锁新能力。这种持续的演进带来了令人兴奋的机遇，但也为保持模型兼容性和部署稳定性带来了挑战。

GPUStack允许您将inference backend版本固定到特定发布版本，在保持最新技术进步与确保可靠运行环境之间取得平衡。该功能在以下场景中特别有益：

通过固定后端版本，您可以完全控制推理环境，从而在部署中实现灵活性和可预测性。

自动安装固定版本的后端

为了简化部署流程，GPUStack支持在可行时自动安装固定版本的后端。具体流程取决于后端类型：

提示

您可以通过配置选项中的--tools-download-base-url来自定义下载源。

提示

该自动化减少了人工干预，使您能够专注于部署和使用模型。

当自动安装不可行或非首选时，GPUStack提供了一种直接的方式来手动安装特定版本的推理后端。请按照以下步骤操作：

提示

您可以使用--bin-dir 配置选项来自定义bin目录。

例如，vLLM可执行文件在Linux系统中版本v0.7.3应命名为vllm_v0.7.3。

按照以下步骤操作，您可以完全掌控后端安装流程，确保部署时使用正确的版本。