跳至内容

GPUStack

demo

GPUStack 是一个用于运行AI模型的开源GPU集群管理器。

主要功能

  • 广泛的硬件兼容性:可在苹果Mac、Windows PC和Linux服务器上运行不同品牌的GPU。
  • 广泛的模型支持:从LLM到扩散模型、音频、嵌入和重排序模型。
  • 随GPU资源扩展:轻松添加更多GPU或节点以扩展您的业务规模。
  • 分布式推理: 支持单节点多GPU和多节点推理与服务。
  • 多推理后端支持: 支持使用llama-box(llama.cpp & stable-diffusion.cpp)、vox-box和vLLM作为推理后端。
  • 轻量级Python包:依赖项和操作开销极少。
  • OpenAI兼容API: 提供符合OpenAI标准的API服务。
  • 用户和API密钥管理:简化的用户和API密钥管理。
  • GPU指标监控: 实时监控GPU性能和利用率。
  • 令牌使用和速率指标: 有效跟踪令牌使用情况并管理速率限制。

支持的平台

  • macOS
  • Windows
  • Linux

支持的加速器

  • NVIDIA CUDA (Compute Capability 6.0及以上版本)
  • Apple Metal (M系列芯片)
  • AMD ROCm
  • 昇腾 CANN
  • 海光DTK
  • 摩尔线程 MUSA

我们计划在未来的版本中支持以下加速器。

  • Intel oneAPI
  • 高通AI引擎

支持的模型

GPUStack 使用 llama-box(集成了 llama.cppstable-diffusion.cpp 服务器)、vLLMvox-box 作为后端,并支持多种模型。支持以下来源的模型:

  1. Hugging Face

  2. ModelScope

  3. Ollama 库

  4. 本地文件路径

示例模型:

类别 模型
大语言模型(LLMs) Qwen, LLaMA, Mistral, DeepSeek, Phi, Gemma
视觉语言模型(VLMs) Llama3.2-Vision, Pixtral , Qwen2.5-VL, LLaVA, InternVL2.5
扩散模型 Stable Diffusion, FLUX
嵌入模型 BGE, BCE, Jina
重排序模型 BGE, BCE, Jina
音频模型 Whisper (语音转文字), CosyVoice (文字转语音)

要查看支持的完整模型列表,请参阅推理后端文档中的支持模型部分。

OpenAI兼容API

GPUStack提供与OpenAI兼容的API接口。详情请参阅OpenAI Compatible APIs