在CPU上运行推理
GPUStack支持在CPU上进行推理,当GPU资源有限或模型大小超过可用GPU内存时提供了灵活性。以下是可用的CPU推理模式:
- CPU+GPU Hybrid Inference: Enables partial acceleration by offloading portions of large models to the CPU when VRAM capacity is insufficient.
- 纯CPU推理: 当没有GPU资源可用时,完全在CPU上运行。
注意
使用llama-box后端时支持CPU推理。
要通过CPU卸载部署模型,请在部署配置中启用Allow CPU Offloading选项(该设置默认已启用)。
部署完成后,您可以查看卸载到CPU的模型层数。

