架构

API服务器: 为客户端提供RESTful接口以与系统交互。它负责处理身份验证和授权。
调度器: 负责将模型实例分配给工作节点。
模型控制器: 管理模型实例的部署和扩展，以匹配所需的模型副本数量。
HTTP代理: 将完成API请求路由到后端推理服务器。

下图展示了GPUStack的架构：

GPUStack服务器包含以下组件：

GPUStack workers 负责以下职责：

GPUStack服务器连接SQL数据库作为数据存储。GPUStack默认使用SQLite，但您也可以配置它使用外部PostgreSQL。

推理服务器是执行推理任务的后端。GPUStack支持llama-box、vLLM和vox-box作为推理服务器。

RPC服务器支持在远程主机上运行llama-box后端。推理服务器与一个或多个RPC服务器实例通信，将计算任务卸载到这些远程主机上。这种设置允许跨多个工作节点进行分布式LLM推理，使系统即使在单个资源有限的情况下也能加载更大的模型。

Ray 是一个分布式计算框架，GPUStack 利用它来运行分布式 vLLM。用户可以在 GPUStack 中启用 Ray 集群，以便在多个工作节点上运行 vLLM。默认情况下，该功能处于禁用状态。