跳至内容

使用视觉语言模型

视觉语言模型能够同时处理视觉(图像)和语言(文本)数据,使其成为适用于多种应用场景的多功能工具,例如图像描述生成、视觉问答等。在本指南中,您将学习如何在GPUStack中部署视觉语言模型(VLMs)并与之交互。

在GPUStack中部署和与这些模型交互的流程是相似的。主要区别在于部署模型时需要设置的参数。有关可设置参数的更多信息,请参阅Backend Parameters

在本指南中,我们将介绍以下模型的部署:

  • Llama3.2-Vision
  • Qwen2-VL
  • Pixtral
  • Phi3.5-Vision

先决条件

在开始之前,请确保您已具备以下条件:

  • 一台配备一块或多块GPU的Linux机器,总显存至少为30GB。我们将使用仅支持Linux的vLLM后端。
  • 访问Hugging Face并获取Hugging Face API密钥以下载模型文件。
  • 您已获得上述Hugging Face模型的访问权限。Llama3.2-VLPixtral是受限模型,您需要申请访问权限。

注意

本指南全程使用配备一块H100(80GB)GPU的Ubuntu节点。

步骤1:安装GPUStack

运行以下命令安装GPUStack:

curl -sfL https://get.gpustack.ai | sh -s - --huggingface-token <Hugging Face API Key>

替换为您的 Hugging Face API key。GPUStack 将使用此密钥下载模型文件。

步骤2:登录GPUStack用户界面

运行以下命令获取默认密码:

cat /var/lib/gpustack/initial_admin_password

打开浏览器并访问http://。将替换为您服务器的IP地址。使用用户名admin和上一步获得的密码登录。

步骤3:部署视觉语言模型

从目录部署

目录中的视觉语言模型标有vision能力标签。当您从目录中选择视觉语言模型时,只要您拥有足够的GPU资源且后端与您的设置兼容(例如vLLM后端需要amd64 Linux工作节点),默认配置即可正常工作。

catalog-vlm

使用llama-box进行自定义部署的示例

在使用llama-box部署GGUF VLM模型时,GPUStack会自动处理多模态投影文件,实现开箱即用。

  1. 在GPUStack用户界面中导航至Models页面,点击Deploy Model按钮。在下拉菜单中选择Hugging Face作为模型来源。
  2. 启用GGUF复选框可按GGUF格式筛选模型。
  3. 使用搜索栏查找 bartowski/Qwen2-VL-2B-Instruct-GGUF 模型。
  4. 使用GGUF Q4_K_M量化格式。
  5. 点击Save按钮部署模型。

Deploy GGUF Model

使用vLLM进行自定义部署的示例

部署Llama3.2-Vision

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮,然后在下拉菜单中选择Hugging Face
  3. 在搜索栏中搜索 meta-llama/Llama-3.2-11B-Vision-Instruct
  4. 展开配置中的Advanced(高级)部分,向下滚动至Backend Parameters(后端参数)区域。
  5. 多次点击Add Parameter按钮并添加以下参数:
  • --enforce-eager
  • --max-num-seqs=16
  • --max-model-len=8192
  1. 点击Save按钮。

llama3.2-vl

部署Qwen2-VL

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮,然后在下拉菜单中选择Hugging Face
  3. 在搜索栏中搜索 Qwen/Qwen2-VL-7B-Instruct
  4. 点击Save按钮。只要您有足够的GPU资源,默认配置应该就能正常工作。

部署Pixtral

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮,然后在下拉菜单中选择Hugging Face
  3. 在搜索栏中搜索 mistralai/Pixtral-12B-2409
  4. 在配置中展开Advanced(高级)部分,向下滚动至Backend Parameters(后端参数)部分。
  5. 多次点击Add Parameter按钮并添加以下参数:
  • --tokenizer-mode=mistral
  • --limit-mm-per-prompt=image=4
  1. 点击Save按钮。

部署 Phi3.5-Vision 模型

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮,然后在下拉菜单中选择Hugging Face
  3. 在搜索栏中搜索 microsoft/Phi-3.5-vision-instruct
  4. 展开配置中的Advanced(高级)部分,向下滚动至Backend Parameters(后端参数)区域。
  5. 点击Add Parameter按钮并添加以下参数:
  • --trust-remote-code
  1. 点击Save按钮。

步骤4:与视觉语言模型交互

  1. 在GPUStack用户界面中导航至Playground页面。
  2. 从右上角的下拉菜单中选择已部署的模型。
  3. 点击输入文本框上方的Upload Image按钮并上传图片。
  4. 在输入文本区域输入提示语。例如,“描述这张图片。”
  5. 点击Submit按钮生成输出结果。

playground-vl