GLM Edge 视觉模型
目前此实现支持 glm-edge-v-2b 和 glm-edge-v-5b 模型。
使用方法
首先构建 llama-mtmd-cli 二进制文件。
构建完成后,运行 ./llama-mtmd-cli 查看使用说明。使用示例如下:
./llama-mtmd-cli -m model_path/ggml-model-f16.gguf --mmproj model_path/mmproj-model-f16.gguf
注意: 建议使用较低的温度值(如 0.1)以获得更好的生成质量。可以在命令中添加
--temp 0.1参数来设置。
注意: 如果需要GPU卸载加速,请像往常一样使用
-ngl标志参数。
GGUF 格式转换
git clone https://huggingface.co/THUDM/glm-edge-v-5b
# 或者
git clone https://huggingface.co/THUDM/glm-edge-v-2b
- 使用
glmedge-surgery.py工具将 GLM Edge 视觉模型分离为语言模型(LLM)和多模态投影器两个组件:
python ./tools/mtmd/glmedge-surgery.py -m ../model_path
- 使用
glmedge-convert-image-encoder-to-gguf.py工具将 GLM Edge 图像编码器转换为 GGUF 格式:
python ./tools/mtmd/glmedge-convert-image-encoder-to-gguf.py -m ../model_path --llava-projector ../model_path/glm.projector --output-dir ../model_path
- 使用
examples/convert_hf_to_gguf.py脚本将 GLM Edge 的语言模型部分转换为 GGUF 格式:
python convert_hf_to_gguf.py ../model_path
完成上述步骤后,语言模型部分和图像编码器都将保存在 model_path 目录中,可以直接使用。