LLAMA.CPP 简介

llama

欢迎来到 LLAMA.CPP 中文文档！

什么是 LLAMA.CPP？

LLAMA.CPP 是一个用纯 C/C++ 实现的大语言模型推理引擎，专门用于运行 Meta 的 LLaMA 模型以及其他兼容的大语言模型。

主要特性

🚀 纯 C/C++ 实现 - 无需任何外部依赖
🍎 Apple Silicon 优化 - 通过 ARM NEON、Accelerate 和 Metal 框架优化
⚡ 多种量化支持 - 支持 1.5-bit 到 8-bit 的整数量化
🎯 跨平台支持 - 支持 CPU、GPU 和各种硬件加速器
🔧 丰富的工具集 - 提供完整的命令行工具和 API

支持的硬件

后端	目标设备
Metal	Apple Silicon
CUDA	Nvidia GPU
HIP	AMD GPU
Vulkan	通用 GPU
SYCL	Intel 和 Nvidia GPU
OpenCL	Adreno GPU

快速开始

安装

你可以通过多种方式安装 LLAMA.CPP：

# 使用 Homebrew (macOS)
brew install llama.cpp

# 使用预编译二进制文件
# 从 GitHub Releases 页面下载

# 从源码构建
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make

第一次运行

# 使用本地模型文件
llama-cli -m my_model.gguf

# 或者直接从 Hugging Face 下载并运行模型
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

# 启动 OpenAI 兼容的 API 服务器
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

支持的模型

LLAMA.CPP 支持众多流行的大语言模型，包括：

文本模型

✅ LLaMA 1/2/3 系列
✅ Mistral 7B 和 Mixtral MoE
✅ Qwen 系列
✅ ChatGLM 系列
✅ Baichuan 系列
✅ 以及更多...

多模态模型

✅ LLaVA 1.5/1.6
✅ MiniCPM-V
✅ Qwen2-VL
✅ 以及更多...

主要工具

llama-cli - 命令行推理工具
llama-server - HTTP API 服务器
llama-bench - 性能基准测试
llama-perplexity - 模型质量评估

下一步

📖 安装指南 - 详细的安装说明
🚀 快速开始 - 快速上手指南
🔧 工具使用 - 学习如何使用各种工具
🤖 模型支持 - 了解支持的模型

社区与支持

💬 GitHub Discussions - 社区讨论
🐛 Issues - 问题反馈
📚 项目路线图 - 开发计划

什么是 LLAMA.CPP？​

主要特性​

支持的硬件​

快速开始​

安装​

第一次运行​

支持的模型​

文本模型​

多模态模型​

主要工具​

下一步​

社区与支持​

什么是 LLAMA.CPP？

主要特性

支持的硬件

快速开始

安装

第一次运行

支持的模型

文本模型

多模态模型

主要工具

下一步

社区与支持