跳至内容

固定的后端版本

生成式AI领域的推理引擎正在快速发展,以提升性能并解锁新能力。这种持续的演进带来了令人兴奋的机遇,但也为保持模型兼容性和部署稳定性带来了挑战。

GPUStack允许您将inference backend版本固定到特定发布版本,在保持最新技术进步与确保可靠运行环境之间取得平衡。该功能在以下场景中特别有益:

  • 利用最新的后端功能而无需等待GPUStack更新。
  • 锁定特定的后端版本以保持与现有模型的兼容性。
  • 为具有不同需求的模型分配不同的后端版本。

通过固定后端版本,您可以完全控制推理环境,从而在部署中实现灵活性和可预测性。

自动安装固定版本的后端

为了简化部署流程,GPUStack支持在可行时自动安装固定版本的后端。具体流程取决于后端类型:

  1. 预构建二进制文件
    对于像llama-box这样的后端,GPUStack会使用与GPUStack引导过程中相同的机制下载指定版本。

提示

您可以通过配置选项中的--tools-download-base-url来自定义下载源。

  1. 基于Python的后端
    对于像vLLMvox-box这样的后端,GPUStack使用pipx在隔离的Python环境中安装指定版本。

提示

  • 确保工作节点上已安装pipx
  • 如果系统中没有pipx的PATH路径,可以通过配置选项中的--pipx-path参数指定其位置。

该自动化减少了人工干预,使您能够专注于部署和使用模型。

手动安装固定版本的后端

当自动安装不可行或非首选时,GPUStack提供了一种直接的方式来手动安装特定版本的推理后端。请按照以下步骤操作:

  1. 准备可执行文件
    安装后端可执行文件或将其链接到GPUStack的bin目录下。默认位置为:
  • Linux/macOS: /var/lib/gpustack/bin
  • Windows: $env:AppData\gpustack\bin

提示

您可以使用--bin-dir 配置选项来自定义bin目录。

  1. 命名可执行文件
    确保可执行文件按以下格式命名:
  • Linux/macOS: _
  • Windows: _.exe

例如,vLLM可执行文件在Linux系统中版本v0.7.3应命名为vllm_v0.7.3

按照以下步骤操作,您可以完全掌控后端安装流程,确保部署时使用正确的版本。