GPUStack
GPUStack 是一个用于运行AI模型的开源GPU集群管理器。
主要功能
- 广泛的硬件兼容性:可在苹果Mac、Windows PC和Linux服务器上运行不同品牌的GPU。
- 广泛的模型支持:从LLM到扩散模型、音频、嵌入和重排序模型。
- 随GPU资源扩展:轻松添加更多GPU或节点以扩展您的业务规模。
- 分布式推理: 支持单节点多GPU和多节点推理与服务。
- 多推理后端支持: 支持使用llama-box(llama.cpp & stable-diffusion.cpp)、vox-box和vLLM作为推理后端。
- 轻量级Python包:依赖项和操作开销极少。
- OpenAI兼容API: 提供符合OpenAI标准的API服务。
- 用户和API密钥管理:简化的用户和API密钥管理。
- GPU指标监控: 实时监控GPU性能和利用率。
- 令牌使用和速率指标: 有效跟踪令牌使用情况并管理速率限制。
支持的平台
- macOS
- Windows
- Linux
支持的加速器
- NVIDIA CUDA (Compute Capability 6.0及以上版本)
- Apple Metal (M系列芯片)
- AMD ROCm
- 昇腾 CANN
- 海光DTK
- 摩尔线程 MUSA
我们计划在未来的版本中支持以下加速器。
- Intel oneAPI
- 高通AI引擎
支持的模型
GPUStack 使用 llama-box(集成了 llama.cpp 和 stable-diffusion.cpp 服务器)、vLLM 和 vox-box 作为后端,并支持多种模型。支持以下来源的模型:
-
本地文件路径
示例模型:
| 类别 | 模型 |
|---|---|
| 大语言模型(LLMs) | Qwen, LLaMA, Mistral, DeepSeek, Phi, Gemma |
| 视觉语言模型(VLMs) | Llama3.2-Vision, Pixtral , Qwen2.5-VL, LLaVA, InternVL2.5 |
| 扩散模型 | Stable Diffusion, FLUX |
| 嵌入模型 | BGE, BCE, Jina |
| 重排序模型 | BGE, BCE, Jina |
| 音频模型 | Whisper (语音转文字), CosyVoice (文字转语音) |
要查看支持的完整模型列表,请参阅推理后端文档中的支持模型部分。
OpenAI兼容API
GPUStack提供与OpenAI兼容的API接口。详情请参阅OpenAI Compatible APIs
