使用视觉语言模型
视觉语言模型能够同时处理视觉(图像)和语言(文本)数据,使其成为适用于多种应用场景的多功能工具,例如图像描述生成、视觉问答等。在本指南中,您将学习如何在GPUStack中部署视觉语言模型(VLMs)并与之交互。
在GPUStack中部署和与这些模型交互的流程是相似的。主要区别在于部署模型时需要设置的参数。有关可设置参数的更多信息,请参阅Backend Parameters。
在本指南中,我们将介绍以下模型的部署:
- Llama3.2-Vision
- Qwen2-VL
- Pixtral
- Phi3.5-Vision
先决条件
在开始之前,请确保您已具备以下条件:
- 一台配备一块或多块GPU的Linux机器,总显存至少为30GB。我们将使用仅支持Linux的vLLM后端。
- 访问Hugging Face并获取Hugging Face API密钥以下载模型文件。
- 您已获得上述Hugging Face模型的访问权限。Llama3.2-VL和Pixtral是受限模型,您需要申请访问权限。
注意
本指南全程使用配备一块H100(80GB)GPU的Ubuntu节点。
步骤1:安装GPUStack
运行以下命令安装GPUStack:
curl -sfL https://get.gpustack.ai | sh -s - --huggingface-token <Hugging Face API Key>
将
替换为您的 Hugging Face API key。GPUStack 将使用此密钥下载模型文件。
步骤2:登录GPUStack用户界面
运行以下命令获取默认密码:
cat /var/lib/gpustack/initial_admin_password
打开浏览器并访问http://
。将
替换为您服务器的IP地址。使用用户名admin
和上一步获得的密码登录。
步骤3:部署视觉语言模型
从目录部署
目录中的视觉语言模型标有vision
能力标签。当您从目录中选择视觉语言模型时,只要您拥有足够的GPU资源且后端与您的设置兼容(例如vLLM后端需要amd64 Linux工作节点),默认配置即可正常工作。
使用llama-box进行自定义部署的示例
在使用llama-box部署GGUF VLM模型时,GPUStack会自动处理多模态投影文件,实现开箱即用。
- 在GPUStack用户界面中导航至
Models
页面,点击Deploy Model
按钮。在下拉菜单中选择Hugging Face
作为模型来源。 - 启用
GGUF
复选框可按GGUF格式筛选模型。 - 使用搜索栏查找
bartowski/Qwen2-VL-2B-Instruct-GGUF
模型。 - 使用GGUF
Q4_K_M
量化格式。 - 点击
Save
按钮部署模型。
使用vLLM进行自定义部署的示例
部署Llama3.2-Vision
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮,然后在下拉菜单中选择Hugging Face
。 - 在搜索栏中搜索
meta-llama/Llama-3.2-11B-Vision-Instruct
。 - 展开配置中的
Advanced
(高级)部分,向下滚动至Backend Parameters
(后端参数)区域。 - 多次点击
Add Parameter
按钮并添加以下参数:
--enforce-eager
--max-num-seqs=16
--max-model-len=8192
- 点击
Save
按钮。
部署Qwen2-VL
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮,然后在下拉菜单中选择Hugging Face
。 - 在搜索栏中搜索
Qwen/Qwen2-VL-7B-Instruct
。 - 点击
Save
按钮。只要您有足够的GPU资源,默认配置应该就能正常工作。
部署Pixtral
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮,然后在下拉菜单中选择Hugging Face
。 - 在搜索栏中搜索
mistralai/Pixtral-12B-2409
。 - 在配置中展开
Advanced
(高级)部分,向下滚动至Backend Parameters
(后端参数)部分。 - 多次点击
Add Parameter
按钮并添加以下参数:
--tokenizer-mode=mistral
--limit-mm-per-prompt=image=4
- 点击
Save
按钮。
部署 Phi3.5-Vision 模型
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮,然后在下拉菜单中选择Hugging Face
。 - 在搜索栏中搜索
microsoft/Phi-3.5-vision-instruct
。 - 展开配置中的
Advanced
(高级)部分,向下滚动至Backend Parameters
(后端参数)区域。 - 点击
Add Parameter
按钮并添加以下参数:
--trust-remote-code
- 点击
Save
按钮。
步骤4:与视觉语言模型交互
- 在GPUStack用户界面中导航至
Playground
页面。 - 从右上角的下拉菜单中选择已部署的模型。
- 点击输入文本框上方的
Upload Image
按钮并上传图片。 - 在输入文本区域输入提示语。例如,“描述这张图片。”
- 点击
Submit
按钮生成输出结果。