跳至内容

架构

下图展示了GPUStack的架构:

gpustack-architecture

服务器

GPUStack服务器包含以下组件:

  • API服务器: 为客户端提供RESTful接口以与系统交互。它负责处理身份验证和授权。
  • 调度器: 负责将模型实例分配给工作节点。
  • 模型控制器: 管理模型实例的部署和扩展,以匹配所需的模型副本数量。
  • HTTP代理: 将完成API请求路由到后端推理服务器。

工作节点

GPUStack workers 负责以下职责:

  • 为分配给工作者的模型实例运行推理服务器。
  • 向服务器报告状态。

SQL数据库

GPUStack服务器连接SQL数据库作为数据存储。GPUStack默认使用SQLite,但您也可以配置它使用外部PostgreSQL。

推理服务器

推理服务器是执行推理任务的后端。GPUStack支持llama-boxvLLMvox-box作为推理服务器。

RPC 服务器

RPC服务器支持在远程主机上运行llama-box后端。推理服务器与一个或多个RPC服务器实例通信,将计算任务卸载到这些远程主机上。这种设置允许跨多个工作节点进行分布式LLM推理,使系统即使在单个资源有限的情况下也能加载更大的模型。

Ray 头节点/工作节点

Ray 是一个分布式计算框架,GPUStack 利用它来运行分布式 vLLM。用户可以在 GPUStack 中启用 Ray 集群,以便在多个工作节点上运行 vLLM。默认情况下,该功能处于禁用状态。