跳至内容

在CPU上运行推理

GPUStack支持在CPU上进行推理,当GPU资源有限或模型大小超过可用GPU内存时提供了灵活性。以下是可用的CPU推理模式:

  • CPU+GPU Hybrid Inference: Enables partial acceleration by offloading portions of large models to the CPU when VRAM capacity is insufficient.
  • 纯CPU推理: 当没有GPU资源可用时,完全在CPU上运行。

注意

使用llama-box后端时支持CPU推理。

要通过CPU卸载部署模型,请在部署配置中启用Allow CPU Offloading选项(该设置默认已启用)。

Allow CPU Offload

部署完成后,您可以查看卸载到CPU的模型层数。

CPU Offload