GPUStack

GPUStack 是一个用于运行AI模型的开源GPU集群管理器。

广泛的硬件兼容性：可在苹果Mac、Windows PC和Linux服务器上运行不同品牌的GPU。
广泛的模型支持：从LLM到扩散模型、音频、嵌入和重排序模型。
随GPU资源扩展：轻松添加更多GPU或节点以扩展您的业务规模。
分布式推理: 支持单节点多GPU和多节点推理与服务。
多推理后端支持: 支持使用llama-box(llama.cpp & stable-diffusion.cpp)、vox-box和vLLM作为推理后端。
轻量级Python包：依赖项和操作开销极少。
OpenAI兼容API： 提供符合OpenAI标准的API服务。
用户和API密钥管理：简化的用户和API密钥管理。
GPU指标监控： 实时监控GPU性能和利用率。
令牌使用和速率指标： 有效跟踪令牌使用情况并管理速率限制。

支持的平台

我们计划在未来的版本中支持以下加速器。

GPUStack 使用 llama-box（集成了 llama.cpp 和 stable-diffusion.cpp 服务器）、vLLM 和 vox-box 作为后端，并支持多种模型。支持以下来源的模型：

类别	模型
大语言模型(LLMs)	Qwen, LLaMA, Mistral, DeepSeek, Phi, Gemma
视觉语言模型(VLMs)	Llama3.2-Vision, Pixtral , Qwen2.5-VL, LLaVA, InternVL2.5
扩散模型	Stable Diffusion, FLUX
嵌入模型	BGE, BCE, Jina
重排序模型	BGE, BCE, Jina
音频模型	Whisper (语音转文字), CosyVoice (文字转语音)

要查看支持的完整模型列表，请参阅推理后端文档中的支持模型部分。

GPUStack提供与OpenAI兼容的API接口。详情请参阅OpenAI Compatible APIs