LLAMA.CPP 简介

欢迎来到 LLAMA.CPP 中文文档!
什么是 LLAMA.CPP?
LLAMA.CPP 是一个用纯 C/C++ 实现的大语言模型推理引擎,专门用于运行 Meta 的 LLaMA 模型以及其他兼容的大语言模型。
主要特性
- 🚀 纯 C/C++ 实现 - 无需任何外部依赖
- 🍎 Apple Silicon 优化 - 通过 ARM NEON、Accelerate 和 Metal 框架优化
- ⚡ 多种量化支持 - 支持 1.5-bit 到 8-bit 的整数量化
- 🎯 跨平台支持 - 支持 CPU、GPU 和各种硬件加速器
- 🔧 丰富的工具集 - 提供完整的命令行工具和 API
支持的硬件
| 后端 | 目标设备 |
|---|---|
| Metal | Apple Silicon |
| CUDA | Nvidia GPU |
| HIP | AMD GPU |
| Vulkan | 通用 GPU |
| SYCL | Intel 和 Nvidia GPU |
| OpenCL | Adreno GPU |
快速开始
安装
你可以通过多种方式安装 LLAMA.CPP:
# 使用 Homebrew (macOS)
brew install llama.cpp
# 使用预编译二进制文件
# 从 GitHub Releases 页面下载
# 从源码构建
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make
第一次运行
# 使用本地模型文件
llama-cli -m my_model.gguf
# 或者直接从 Hugging Face 下载并运行模型
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
# 启动 OpenAI 兼容的 API 服务器
llama-server -hf ggml-org/gemma-3-1b-it-GGUF
支持的模型
LLAMA.CPP 支持众多流行的大语言模型,包括:
文本模型
- ✅ LLaMA 1/2/3 系列
- ✅ Mistral 7B 和 Mixtral MoE
- ✅ Qwen 系列
- ✅ ChatGLM 系列
- ✅ Baichuan 系列
- ✅ 以及更多...
多模态模型
- ✅ LLaVA 1.5/1.6
- ✅ MiniCPM-V
- ✅ Qwen2-VL
- ✅ 以及更多...
主要工具
- llama-cli - 命令行推理工具
- llama-server - HTTP API 服务器
- llama-bench - 性能基准测试
- llama-perplexity - 模型质量评估
下一步
社区与支持
- 💬 GitHub Discussions - 社区讨论
- 🐛 Issues - 问题反馈
- 📚 项目路线图 - 开发计划
准备好开始了吗?让我们从安装指南开始吧!