在CPU上运行推理

GPUStack支持在CPU上进行推理，当GPU资源有限或模型大小超过可用GPU内存时提供了灵活性。以下是可用的CPU推理模式：

CPU+GPU Hybrid Inference: Enables partial acceleration by offloading portions of large models to the CPU when VRAM capacity is insufficient.
纯CPU推理: 当没有GPU资源可用时，完全在CPU上运行。

注意

使用llama-box后端时支持CPU推理。

要通过CPU卸载部署模型，请在部署配置中启用Allow CPU Offloading选项（该设置默认已启用）。

部署完成后，您可以查看卸载到CPU的模型层数。