GLM Edge 视觉模型

目前此实现支持 glm-edge-v-2b 和 glm-edge-v-5b 模型。

使用方法

首先构建 llama-mtmd-cli 二进制文件。

构建完成后，运行 ./llama-mtmd-cli 查看使用说明。使用示例如下：

./llama-mtmd-cli -m model_path/ggml-model-f16.gguf --mmproj model_path/mmproj-model-f16.gguf

注意： 建议使用较低的温度值（如 0.1）以获得更好的生成质量。可以在命令中添加 --temp 0.1 参数来设置。

注意： 如果需要GPU卸载加速，请像往常一样使用 -ngl 标志参数。

GGUF 格式转换

克隆一个 GLM Edge 视觉模型（2B版本或 5B版本）。例如：

git clone https://huggingface.co/THUDM/glm-edge-v-5b
# 或者
git clone https://huggingface.co/THUDM/glm-edge-v-2b

使用 glmedge-surgery.py 工具将 GLM Edge 视觉模型分离为语言模型（LLM）和多模态投影器两个组件：

python ./tools/mtmd/glmedge-surgery.py -m ../model_path

使用 glmedge-convert-image-encoder-to-gguf.py 工具将 GLM Edge 图像编码器转换为 GGUF 格式：

python ./tools/mtmd/glmedge-convert-image-encoder-to-gguf.py -m ../model_path --llava-projector ../model_path/glm.projector --output-dir ../model_path

使用 examples/convert_hf_to_gguf.py 脚本将 GLM Edge 的语言模型部分转换为 GGUF 格式：

python convert_hf_to_gguf.py ../model_path

完成上述步骤后，语言模型部分和图像编码器都将保存在 model_path 目录中，可以直接使用。

使用方法​

GGUF 格式转换​

使用方法

GGUF 格式转换