跳到主要内容

GLM Edge 视觉模型

目前此实现支持 glm-edge-v-2bglm-edge-v-5b 模型。

使用方法

首先构建 llama-mtmd-cli 二进制文件。

构建完成后,运行 ./llama-mtmd-cli 查看使用说明。使用示例如下:

./llama-mtmd-cli -m model_path/ggml-model-f16.gguf --mmproj model_path/mmproj-model-f16.gguf

注意: 建议使用较低的温度值(如 0.1)以获得更好的生成质量。可以在命令中添加 --temp 0.1 参数来设置。

注意: 如果需要GPU卸载加速,请像往常一样使用 -ngl 标志参数。

GGUF 格式转换

  1. 克隆一个 GLM Edge 视觉模型(2B版本5B版本)。例如:
git clone https://huggingface.co/THUDM/glm-edge-v-5b
# 或者
git clone https://huggingface.co/THUDM/glm-edge-v-2b
  1. 使用 glmedge-surgery.py 工具将 GLM Edge 视觉模型分离为语言模型(LLM)和多模态投影器两个组件:
python ./tools/mtmd/glmedge-surgery.py -m ../model_path
  1. 使用 glmedge-convert-image-encoder-to-gguf.py 工具将 GLM Edge 图像编码器转换为 GGUF 格式:
python ./tools/mtmd/glmedge-convert-image-encoder-to-gguf.py -m ../model_path --llava-projector ../model_path/glm.projector --output-dir ../model_path
  1. 使用 examples/convert_hf_to_gguf.py 脚本将 GLM Edge 的语言模型部分转换为 GGUF 格式:
python convert_hf_to_gguf.py ../model_path

完成上述步骤后,语言模型部分和图像编码器都将保存在 model_path 目录中,可以直接使用。