固定的后端版本
生成式AI领域的推理引擎正在快速发展,以提升性能并解锁新能力。这种持续的演进带来了令人兴奋的机遇,但也为保持模型兼容性和部署稳定性带来了挑战。
GPUStack允许您将inference backend版本固定到特定发布版本,在保持最新技术进步与确保可靠运行环境之间取得平衡。该功能在以下场景中特别有益:
- 利用最新的后端功能而无需等待GPUStack更新。
- 锁定特定的后端版本以保持与现有模型的兼容性。
- 为具有不同需求的模型分配不同的后端版本。
通过固定后端版本,您可以完全控制推理环境,从而在部署中实现灵活性和可预测性。
自动安装固定版本的后端
为了简化部署流程,GPUStack支持在可行时自动安装固定版本的后端。具体流程取决于后端类型:
- 预构建二进制文件
对于像llama-box这样的后端,GPUStack会使用与GPUStack引导过程中相同的机制下载指定版本。
提示
您可以通过配置选项中的--tools-download-base-url来自定义下载源。
- 基于Python的后端
对于像vLLM和vox-box这样的后端,GPUStack使用pipx在隔离的Python环境中安装指定版本。
提示
- 确保工作节点上已安装
pipx。 - 如果系统中没有
pipx的PATH路径,可以通过配置选项中的--pipx-path参数指定其位置。
该自动化减少了人工干预,使您能够专注于部署和使用模型。
手动安装固定版本的后端
当自动安装不可行或非首选时,GPUStack提供了一种直接的方式来手动安装特定版本的推理后端。请按照以下步骤操作:
- 准备可执行文件
安装后端可执行文件或将其链接到GPUStack的bin目录下。默认位置为:
- Linux/macOS:
/var/lib/gpustack/bin - Windows:
$env:AppData\gpustack\bin
提示
您可以使用--bin-dir 配置选项来自定义bin目录。
- 命名可执行文件
确保可执行文件按以下格式命名:
- Linux/macOS:
_ - Windows:
_ .exe
例如,vLLM可执行文件在Linux系统中版本v0.7.3应命名为vllm_v0.7.3。
按照以下步骤操作,您可以完全掌控后端安装流程,确保部署时使用正确的版本。