跳到主要内容

Gemma 3 视觉模型

重要提示:

这是一个实验性功能,目前仅用于演示目的。

快速开始

您可以使用来自 ggml-org Hugging Face 账户的预量化模型

# 构建项目
cmake -B build
cmake --build build --target llama-mtmd-cli

# 或者,通过 brew 安装(MacOS 系统)
brew install llama.cpp

# 运行模型
llama-mtmd-cli -hf ggml-org/gemma-3-4b-it-GGUF
llama-mtmd-cli -hf ggml-org/gemma-3-12b-it-GGUF
llama-mtmd-cli -hf ggml-org/gemma-3-27b-it-GGUF

# 注意:1B 模型不支持视觉功能

如何获取 mmproj.gguf 文件?

在使用 convert_hf_to_gguf.py 转换模型时,只需添加 --mmproj 参数:

cd gemma-3-4b-it
python ../llama.cpp/convert_hf_to_gguf.py --outfile model.gguf --outtype f16 --mmproj .
# 输出文件:mmproj-model.gguf

如何运行?

您需要准备以下文件:

  • 文本模型的 GGUF 文件,可使用 convert_hf_to_gguf.py 转换获得
  • 上一步生成的 mmproj 文件
  • 一张图像文件
# 构建项目
cmake -B build
cmake --build build --target llama-mtmd-cli

# 运行模型
./build/bin/llama-mtmd-cli -m {text_model}.gguf --mmproj mmproj.gguf --image your_image.jpg