常见问题

支持矩阵

混合集群支持

它支持混合部署Linux、Windows和macOS节点，以及x86_64和arm64架构。此外，还支持多种GPU，包括NVIDIA、Apple Metal、AMD、昇腾、海光和摩尔线程。

分布式推理支持

单节点多GPU

llama-box（不支持图像生成模型）
vLLM
MindIE
vox-box

多节点多GPU

llama-box
vLLM
MindIE

异构节点多GPU

llama-box

提示

安装

如何更改GPUStack的默认端口？

默认情况下，GPUStack服务器使用80端口。您可以通过以下方法修改端口：

脚本安装

Linux

sudo vim /etc/systemd/system/gpustack.service

添加 --port 参数：

ExecStart=/root/.local/bin/gpustack start --port 9090

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

添加 --port 参数：

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--port</string>
    <string>9090</string>
  </array>

保存并启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

nssm edit GPUStack

在 start 后添加参数：

start --port 9090

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在docker run命令末尾添加--port参数，如下所示：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack \
    --port 9090

如果不使用主机网络，只需修改映射的主机端口：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    -p 9090:80 \
    -p 10150:10150 \
    -p 40064-40131:40064-40131 \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack \
    --worker-ip your_host_ip

pip 安装

在gpustack start命令末尾添加--port参数：

gpustack start --port 9090

如何更改已注册的工作节点名称？

在运行GPUStack时，您可以使用--worker-name参数设置自定义名称：

脚本安装

Linux

sudo vim /etc/systemd/system/gpustack.service

添加 --worker-name 参数：

ExecStart=/root/.local/bin/gpustack start --worker-name New-Name

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

添加 --worker-name 参数：

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--worker-name</string>
    <string>New-Name</string>
  </array>

保存并启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

nssm edit GPUStack

在 start 后添加参数：

start --worker-name New-Name

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在docker run命令的末尾添加--worker-name参数，如下所示：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack \
    --worker-name New-Name

pip安装指南

在gpustack start命令末尾添加--worker-name参数：

gpustack start --worker-name New-Name

如何更改已注册工作节点的IP地址？

您可以在运行GPUStack时使用--worker-ip参数将其设置为自定义IP：

脚本安装

Linux

sudo vim /etc/systemd/system/gpustack.service

添加 --worker-ip 参数：

ExecStart=/root/.local/bin/gpustack start --worker-ip xx.xx.xx.xx

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

添加 --worker-ip 参数：

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--worker-ip</string>
    <string>xx.xx.xx.xx</string>
  </array>

保存并启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

nssm edit GPUStack

在 start 后添加参数：

start --worker-ip xx.xx.xx.xx

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在docker run命令末尾添加--worker-ip参数，如下所示：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack \
    --worker-ip xx.xx.xx.xx

pip 安装

在 gpustack start 命令末尾添加 --worker-ip 参数：

gpustack start --worker-ip xx.xx.xx.xx

GPUStack的数据存储在哪里？

脚本安装

Linux

默认路径如下：

/var/lib/gpustack

在运行GPUStack时，您可以使用--data-dir参数将其设置为自定义路径：

sudo vim /etc/systemd/system/gpustack.service

添加 --data-dir 参数：

ExecStart=/root/.local/bin/gpustack start --data-dir /data/gpustack-data

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

默认路径如下：

/var/lib/gpustack

在运行GPUStack时，您可以使用--data-dir参数将其设置为自定义路径：

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--data-dir</string>
    <string>/Users/gpustack/data/gpustack-data</string>
  </array>

保存并启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

默认路径如下：

"$env:APPDATA\gpustack"

在运行GPUStack时，您可以通过--data-dir参数将其设置为自定义路径：

nssm edit GPUStack

在 start 后添加参数：

start --data-dir D:\gpustack-data

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在运行GPUStack容器时，Docker卷通过-v参数挂载。默认数据路径位于Docker数据目录下，具体是在volumes子目录中，默认路径为：

/var/lib/docker/volumes/gpustack-data/_data

您可以通过以下方法进行检查：

docker volume ls
docker volume inspect gpustack-data

如果需要修改为自定义路径，请在运行容器时调整挂载配置。例如，将主机目录/data/gpustack挂载到容器中：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v /data/gpustack:/var/lib/gpustack  \
    gpustack/gpustack

pip安装指南

在 gpustack start 命令末尾添加 --data-dir 参数：

gpustack start --data-dir /data/gpustack-data

模型文件存储在哪里？

脚本安装

Linux

默认路径如下：

/var/lib/gpustack/cache

在运行GPUStack时，您可以通过--cache-dir参数将其设置为自定义路径：

sudo vim /etc/systemd/system/gpustack.service

添加 --cache-dir 参数：

ExecStart=/root/.local/bin/gpustack start --cache-dir /data/model-cache

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

默认路径如下：

/var/lib/gpustack/cache

在运行GPUStack时，您可以通过--cache-dir参数将其设置为自定义路径：

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--cache-dir</string>
    <string>/Users/gpustack/data/model-cache</string>
  </array>

保存并启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

默认路径如下：

"$env:APPDATA\gpustack\cache"

您可以在运行GPUStack时使用--cache-dir参数将其设置为自定义路径：

nssm edit GPUStack

在 start 后添加参数：

start --cache-dir D:\model-cache

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在运行GPUStack容器时，Docker卷通过-v参数挂载。默认缓存路径位于Docker数据目录下，具体是在volumes子目录中，默认路径为：

/var/lib/docker/volumes/gpustack-data/_data/cache

您可以通过以下方法进行检查：

docker volume ls
docker volume inspect gpustack-data

如果需要更改为自定义路径，请在运行容器时修改挂载配置。

注意：如果数据目录已挂载，则不应将缓存目录挂载在数据目录内。您需要使用--cache-dir参数指定不同的路径。

例如，要挂载主机目录 /data/model-cache：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v /data/gpustack:/var/lib/gpustack  \
    -v /data/model-cache:/data/model-cache \
    gpustack/gpustack \
    --cache-dir /data/model-cache

pip安装指南

在gpustack start命令末尾添加--cache-dir参数：

gpustack start --cache-dir /data/model-cache

启动GPUStack时可以设置哪些参数？

请参考：gpustack start

升级

如何升级内置的vLLM？

GPUStack支持多种推理后端版本。在部署模型时，您可以在Edit Model → Advanced → Backend Version中指定后端版本，以使用新发布的vLLM版本。GPUStack将自动通过pipx创建虚拟环境进行安装：

如果仍需升级内置的vLLM，您可以通过以下方法在所有工作节点上升级vLLM：

脚本安装

pipx runpip gpustack list | grep vllm
pipx runpip gpustack install -U vllm

Docker安装

docker exec -it gpustack bash
pip list | grep vllm
pip install -U vllm

pip安装指南

pip list | grep vllm
pip install -U vllm

如何升级内置的Transformers？

脚本安装

pipx runpip gpustack list | grep transformers
pipx runpip gpustack install -U transformers

Docker安装

docker exec -it gpustack bash
pip list | grep transformers
pip install -U transformers

pip安装指南

pip list | grep transformers
pip install -U transformers

如何升级内置的llama-box？

GPUStack支持多种版本的推理后端。在部署模型时，您可以在Edit Model → Advanced → Backend Version中指定后端版本，以使用新发布的llama-box版本。GPUStack将自动下载并配置它：

如果您正在使用分布式推理，您应该通过以下方法在所有工作节点上升级llama-box：

从llama-box releases下载最新发布的llama-box二进制文件。

你需要先停止GPUStack，然后替换二进制文件，最后重新启动GPUStack。你可以通过一些目录来检查文件位置，例如：

脚本与pip安装

ps -ef | grep llama-box

Docker安装

docker exec -it gpustack bash
ps -ef | grep llama-box

查看日志

如何查看GPUStack日志？

GPUStack日志提供了有关启动状态、计算模型资源需求等信息。请参阅故障排除查看GPUStack日志。

如何在GPUStack中启用调试模式？

您可以临时启用调试模式而不会中断GPUStack服务。请参考故障排除获取指导。

如果想持久启用调试模式，服务器和工作节点在运行GPUStack时都可以添加--debug参数：

脚本安装

Linux

sudo vim /etc/systemd/system/gpustack.service

ExecStart=/root/.local/bin/gpustack start --debug

保存并重启GPUStack：

sudo systemctl daemon-reload && sudo systemctl restart gpustack

macOS

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo vim /Library/LaunchDaemons/ai.gpustack.plist

  <array>
    <string>/Users/gpustack/.local/bin/gpustack</string>
    <string>start</string>
    <string>--debug</string>
  </array>

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

nssm edit GPUStack

在 start 后添加参数：

start --debug

保存并重启GPUStack：

Restart-Service -Name "GPUStack"

Docker安装

在docker run命令末尾添加--debug参数，如下所示：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack \
    --debug

pip安装指南

在gpustack start命令末尾添加--debug参数：

gpustack start --debug

如何查看RPC服务器日志？

RPC服务器用于GGUF模型的分布式推理。如果模型启动异常或分布式推理出现问题，您可以在相应节点上查看RPC服务器日志：

脚本安装

Linux & macOS

默认路径如下。如果设置了--data-dir或--log-dir参数，请修改为您实际配置的路径：

tail -200f /var/lib/gpustack/log/rpc_server/gpu-0.log

每个GPU对应一个RPC服务器。对于其他GPU索引，请修改为实际索引：

tail -200f /var/lib/gpustack/log/rpc_server/gpu-n.log

Windows

默认路径如下。如果设置了--data-dir或--log-dir参数，请修改为您实际配置的路径：

Get-Content "$env:APPDATA\gpustack\log\rpc_server\gpu-0.log" -Tail 200 -Wait

每个GPU对应一个RPC服务器。对于其他GPU索引，请修改为实际索引：

Get-Content "$env:APPDATA\gpustack\log\rpc_server\gpu-n.log" -Tail 200 -Wait

Docker安装

默认路径如下。如果设置了--data-dir或--log-dir参数，请修改为您实际配置的路径：

docker exec -it gpustack tail -200f /var/lib/gpustack/log/rpc_server/gpu-0.log

每个GPU对应一个RPC服务器。对于其他GPU索引，请修改为实际索引：

docker exec -it gpustack tail -200f /var/lib/gpustack/log/rpc_server/gpu-n.log

模型日志存储在何处？

模型实例日志存储在对应工作节点或工作容器的/var/lib/gpustack/log/serve/目录中，日志文件名为id.log，其中id是模型实例ID。如果设置了--data-dir或--log-dir参数，日志将存储在参数指定的实际路径中。

如何启用后端调试模式？

llama-box 后端 (GGUF 模型)

在Edit Model → Advanced → Backend Parameters中添加--verbose参数并重新创建模型实例：

vLLM后端（Safetensors模型）

在Edit Model → Advanced → Environment Variables中添加环境变量VLLM_LOGGING_LEVEL=DEBUG并重新创建模型实例：

管理工作节点

如果worker卡在`Unreachable`状态该怎么办？

尝试从服务器访问错误中显示的URL。如果服务器运行在容器中，您需要进入服务器容器来执行命令：

curl http://10.10.10.1:10150/healthz

如果worker卡在`NotReady`状态该怎么办？

检查对应工作节点上的GPUStack日志此处。如果日志中没有异常，请确认所有节点上的时区和系统时钟保持一致。

检测GPU

为什么未能检测到昇腾NPU？

检查容器中是否可以执行npu-smi：

docker exec -it gpustack bash
npu-smi info

当出现以下错误时，表明其他容器也在挂载NPU设备，而当前不支持共享：

dcmi model initialized failed, because the device is used. ret is -8020

检查主机上是否有容器挂载了NPU设备：

if [ $(docker ps | wc -l) -gt 1 ]; then docker ps | grep -v CONT | awk '{print $1}' | xargs docker inspect --format='{{printf "%.5s" .ID}} {{range .HostConfig.Devices}}{{.PathOnHost}} {{end}}' | sort -k2; fi; echo ok

仅挂载未被其他容器使用的NPU设备，通过--device参数指定：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --device /dev/davinci4 \
    --device /dev/davinci5 \
    --device /dev/davinci6 \
    --device /dev/davinci7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack:latest-npu

模型管理

如何部署模型？

如何部署来自Hugging Face的模型？

要从Hugging Face部署模型，调度模型实例的服务器节点和工作节点必须能够访问Hugging Face，或者您可以使用镜像。

例如，配置 hf-mirror.com 镜像：

脚本安装

Linux

在所有节点上创建或编辑/etc/default/gpustack文件，添加HF_ENDPOINT环境变量以使用https://hf-mirror.com作为Hugging Face镜像：

vim /etc/default/gpustack

HF_ENDPOINT=https://hf-mirror.com

保存并重启GPUStack：

systemctl restart gpustack

Docker安装

在运行容器时添加HF_ENDPOINT环境变量，如下所示：

docker run -d --name gpustack \
    --restart=unless-stopped \
    --gpus all \
    -e HF_ENDPOINT=https://hf-mirror.com \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    gpustack/gpustack

pip安装指南

HF_ENDPOINT=https://hf-mirror.com gpustack start

如何从本地路径部署模型？

从本地路径部署模型时，建议将模型文件上传至每个节点并保持相同的绝对路径。或者，应通过手动调度或标签选择的方式，将模型实例手动调度到已包含模型文件的节点上。另一种选择是在多个节点间挂载共享存储。

从本地路径部署GGUF模型时，路径必须指向.gguf文件的绝对路径。对于分片模型文件，请使用第一个.gguf文件(00001)的绝对路径。如果使用容器安装，模型文件必须挂载到容器中，且路径应指向容器内的路径，而非宿主机的路径。

从本地路径部署Safetensors模型时，路径必须指向包含*.safetensors、config.json和其他文件的模型目录的绝对路径。如果使用容器安装，模型文件必须挂载到容器中，且路径应指向容器内的路径，而非宿主机的路径。

如何部署本地下载的Ollama模型？

使用以下命令查找模型文件的完整路径，并通过本地路径进行部署。以下示例使用deepseek-r1:14b-qwen-distill-q4_K_M，请确保将其替换为您实际的Ollama模型名称：

ollama show deepseek-r1:14b-qwen-distill-q4_K_M --modelfile | grep FROM | grep blobs | sed 's/^FROM[[:space:]]*//'

如果模型卡在`Pending`状态该怎么办？

Pending 表示当前没有满足模型要求的工作节点，将鼠标悬停在 Pending 状态上可查看具体原因。

首先，检查Resources-Workers部分，确保工作节点状态为就绪。

然后，针对不同的后端：

llama-box

llama-box 使用 GGUF Parser 来计算模型的内存需求。您需要确保可分配内存大于模型的计算内存需求。请注意，即使其他模型处于 Error 或 Downloading 状态，GPU 内存也已经被分配。如果您不确定模型需要多少 GPU 内存，可以使用 GGUF Parser 来计算。

模型的上下文长度也会影响所需的GPU内存。您可以通过调整--ctx-size参数来设置较小的上下文。在GPUStack中，如果未设置此参数，其默认值为8192。如果在后端参数中指定了该值，则以实际设置为准。

您可以根据需要在Edit Model → Advanced → Backend Parameters中将其调整为较小的上下文，例如--ctx-size=2048。但请注意，每个推理请求的最大token数同时受--ctx-size和--parallel参数影响： max tokens = context size / parallel

--parallel的默认值为4，因此在这种情况下，最大token数将为512。如果token计数超过最大值，推理输出将被截断。

另一方面，--parallel参数表示并行解码的序列数量，可以大致视为模型并发请求处理的设置。

因此，正确设置--ctx-size和--parallel参数非常重要，确保单个请求的最大token数在限制范围内，并且可用GPU内存能够支持指定的上下文大小。

如果需要与Ollama的配置保持一致，可以参考以下示例：

在Edit Model → Advanced → Backend Parameters中设置以下参数：

--ctx-size=8192
--parallel=4

If your GPU memory is insufficient, try launching with a lower configuration:

--ctx-size=2048
--parallel=1

vLLM

vLLM默认要求所有GPU的可用内存超过90%（由--gpu-memory-utilization参数控制）。请确保可分配的GPU内存超过90%。请注意，即使其他模型处于Error或Downloading状态，GPU内存也已经被分配。

If all GPUs have more than 90% available memory but still show Pending, it indicates insufficient memory. For safetensors models in BF16 format, the required GPU memory (GB) can be estimated as:

GPU Memory (GB) = Number of Parameters (B) * 2 * 1.2 + 2

If the allocatable GPU memory is less than 90%, but you are sure the model can run with a lower allocation, you can adjust the --gpu-memory-utilization parameter. For example, add --gpu-memory-utilization=0.5 in Edit Model → Advanced → Backend Parameters to allocate 50% of the GPU memory.

Note: If the model encounters an error after running and the logs show CUDA: out of memory, it means the allocated GPU memory is insufficient. You will need to further adjust --gpu-memory-utilization, add more resources, or deploy a smaller model.

模型的上下文长度也会影响所需的GPU内存。您可以通过调整--max-model-len参数来设置较小的上下文。在GPUStack中，如果未设置此参数，其默认值为8192。如果在后端参数中指定了该值，则以实际设置为准。

您可以根据需要将其调整为较小的上下文长度，例如--max-model-len=2048。但请注意，每个推理请求的最大token数不能超过--max-model-len的值。因此，设置过小的上下文长度可能会导致推理截断。

--enforce-eager参数也有助于减少GPU内存使用。然而，vLLM中的这个参数会强制模型以即时执行模式运行，这意味着操作在被调用时会立即执行，而不是延迟到基于图的执行（如惰性执行）中进行优化。这可能会使执行速度变慢，但更容易调试。不过，由于缺少图执行提供的优化，这也可能会降低性能。

如果模型卡在`Scheduled`状态该怎么办？

尝试重启调度该模型的GPUStack服务。如果问题仍然存在，请检查工作节点日志此处以分析原因。

如果模型卡在`Error`状态该怎么办？

将鼠标悬停在Error状态上可查看原因。如果出现View More按钮，点击它检查模型日志中的错误信息并分析错误原因。

如何解决错误 *.so: 无法打开共享对象文件: 没有该文件或目录?

如果在模型启动过程中出现错误，提示无法打开任何.so文件，例如：

llama-box: error while loading shared libraries: libcudart.so.12: cannot open shared object file: No such file or directory

原因是GPUStack无法识别LD_LIBRARY_PATH环境变量，这可能是因为在GPUStack安装过程中缺少环境变量或未配置工具包（如CUDA、CANN等）。

检查环境变量是否已设置：

echo $LD_LIBRARY_PATH

如果未配置，这里有一个CUDA的示例配置。

确保nvidia-smi可执行且NVIDIA驱动版本为550或更高：

nvidia-smi

配置CUDA环境变量。如果未安装，请安装CUDA 12.4或更高版本：

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/targets/x86_64-linux/lib
export PATH=$PATH:/usr/local/cuda/bin
echo $LD_LIBRARY_PATH
echo $PATH

创建或编辑/etc/default/gpustack文件，添加PATH和LD_LIBRARY_PATH环境变量：

vim /etc/default/gpustack

LD_LIBRARY_PATH=......
PATH=......

保存并重启GPUStack：

systemctl restart gpustack

为什么使用本地路径时加载模型失败？

当使用本地路径部署模型并遇到failed to load model错误时，您需要检查模型实例所调度的节点上是否存在模型文件，以及绝对路径是否正确。

对于GGUF模型，您需要指定.gguf文件的绝对路径。对于分片模型，请使用第一个.gguf文件（通常是00001）的绝对路径。

如果使用Docker安装，必须将模型文件挂载到容器中。请确保提供的路径是容器内部的路径，而非宿主机的路径。

为什么删除模型后磁盘空间没有释放？

这是为了避免在重新部署时重复下载模型。您需要手动在Resources → Model Files中清理它。

为什么每个GPU默认都有一个llama-box进程？

该进程是用于llama-box分布式推理的RPC服务器。如果您确定不需要使用llama-box进行分布式推理，可以在运行GPUStack时添加--disable-rpc-servers参数来禁用RPC服务器服务。

后端参数

如何了解后端参数的作用？

如何设置模型的上下文长度？

llama-box 后端 (GGUF 模型)

GPUStack 默认将模型的上下文长度设置为8K。您可以使用--ctx-size参数自定义上下文长度，但不能超过模型的最大上下文长度：

如果进行编辑，请保存更改后重新创建模型实例以使更改生效。

vLLM 后端（Safetensors 模型）

GPUStack默认将模型的上下文长度设置为8K。您可以使用--max-model-len参数自定义上下文长度，但不能超过模型的最大上下文长度：

MindIE后端(Safetensors模型)

GPUStack 默认将模型的上下文长度设置为8K。您可以使用--max-seq-len参数自定义上下文长度，但不能超过模型的最大上下文长度：

如果进行编辑，请保存更改后重新创建模型实例以使其生效。

使用模型

使用视觉语言模型

如何解决错误"每次请求最多只能提供1张图片"？

这是vLLM的一个限制。您可以根据需要在Edit Model → Advanced → Backend Parameters中调整--limit-mm-per-prompt参数。例如，--limit-mm-per-prompt=image=4表示每个推理请求最多支持4张图像，详情请参阅此处。

管理GPUStack

如何管理GPUStack服务？

脚本安装

Linux

停止GPUStack:

sudo systemctl stop gpustack

启动 GPUStack：

sudo systemctl start gpustack

重启GPUStack:

sudo systemctl restart gpustack

macOS

停止 GPUStack:

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist

启动GPUStack:

sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

重启GPUStack:

sudo launchctl bootout system /Library/LaunchDaemons/ai.gpustack.plist
sudo launchctl bootstrap system /Library/LaunchDaemons/ai.gpustack.plist

Windows

以管理员身份运行PowerShell（避免使用PowerShell ISE）。

停止GPUStack:

Stop-Service -Name "GPUStack"

启动GPUStack：

Start-Service -Name "GPUStack"

重启GPUStack:

Restart-Service -Name "GPUStack"

Docker安装

重启GPUStack容器：

docker restart gpustack

如何在使用代理的情况下使用GPUStack？

脚本安装

Linux & macOS

创建或编辑 /etc/default/gpustack 并添加代理配置：

vim /etc/default/gpustack

http_proxy="http://username:password@proxy-server:port"
https_proxy="http://username:password@proxy-server:port"
all_proxy="socks5://username:password@proxy-server:port"
no_proxy="localhost,127.0.0.1,192.168.0.0/24,172.16.0.0/16,10.0.0.0/8"

保存并重启GPUStack：

systemctl restart gpustack

Docker安装

运行GPUStack时传递环境变量：

docker run -e http_proxy="http://username:password@proxy-server:port" \
           -e https_proxy="http://username:password@proxy-server:port" \
           -e all_proxy="socks5://username:password@proxy-server:port" \
           -e no_proxy="localhost,127.0.0.1,192.168.0.0/24,172.16.0.0/16,10.0.0.0/8" \
           ……

常见问题

支持矩阵

混合集群支持

分布式推理支持

安装

如何更改GPUStack的默认端口？

如何更改已注册的工作节点名称？

如何更改已注册工作节点的IP地址？

GPUStack的数据存储在哪里？

模型文件存储在哪里？

启动GPUStack时可以设置哪些参数？

升级

如何升级内置的vLLM？

如何升级内置的Transformers？

如何升级内置的llama-box？

查看日志

如何查看GPUStack日志？

如何在GPUStack中启用调试模式？

如何查看RPC服务器日志？

模型日志存储在何处？

如何启用后端调试模式？

管理工作节点

如果worker卡在Unreachable状态该怎么办？

如果worker卡在NotReady状态该怎么办？

检测GPU

为什么未能检测到昇腾NPU？

模型管理

如何部署模型？

如何部署来自Hugging Face的模型？

如何从本地路径部署模型？

如何部署本地下载的Ollama模型？

如果模型卡在Pending状态该怎么办？

如果模型卡在Scheduled状态该怎么办？

如果模型卡在Error状态该怎么办？

如何解决错误 *.so: 无法打开共享对象文件: 没有该文件或目录?

为什么使用本地路径时加载模型失败？

为什么删除模型后磁盘空间没有释放？

为什么每个GPU默认都有一个llama-box进程？

后端参数

如何了解后端参数的作用？

如何设置模型的上下文长度？

使用模型

使用视觉语言模型

如何解决错误"每次请求最多只能提供1张图片"？

管理GPUStack

如何管理GPUStack服务？

如何在使用代理的情况下使用GPUStack？

如果worker卡在`Unreachable`状态该怎么办？

如果worker卡在`NotReady`状态该怎么办？

如果模型卡在`Pending`状态该怎么办？

如果模型卡在`Scheduled`状态该怎么办？

如果模型卡在`Error`状态该怎么办？