跳到主要内容

LLAMA.CPP 简介

llama

欢迎来到 LLAMA.CPP 中文文档!

什么是 LLAMA.CPP?

LLAMA.CPP 是一个用纯 C/C++ 实现的大语言模型推理引擎,专门用于运行 Meta 的 LLaMA 模型以及其他兼容的大语言模型。

主要特性

  • 🚀 纯 C/C++ 实现 - 无需任何外部依赖
  • 🍎 Apple Silicon 优化 - 通过 ARM NEON、Accelerate 和 Metal 框架优化
  • 多种量化支持 - 支持 1.5-bit 到 8-bit 的整数量化
  • 🎯 跨平台支持 - 支持 CPU、GPU 和各种硬件加速器
  • 🔧 丰富的工具集 - 提供完整的命令行工具和 API

支持的硬件

后端目标设备
MetalApple Silicon
CUDANvidia GPU
HIPAMD GPU
Vulkan通用 GPU
SYCLIntel 和 Nvidia GPU
OpenCLAdreno GPU

快速开始

安装

你可以通过多种方式安装 LLAMA.CPP:

# 使用 Homebrew (macOS)
brew install llama.cpp

# 使用预编译二进制文件
# 从 GitHub Releases 页面下载

# 从源码构建
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make

第一次运行

# 使用本地模型文件
llama-cli -m my_model.gguf

# 或者直接从 Hugging Face 下载并运行模型
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

# 启动 OpenAI 兼容的 API 服务器
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

支持的模型

LLAMA.CPP 支持众多流行的大语言模型,包括:

文本模型

  • ✅ LLaMA 1/2/3 系列
  • ✅ Mistral 7B 和 Mixtral MoE
  • ✅ Qwen 系列
  • ✅ ChatGLM 系列
  • ✅ Baichuan 系列
  • ✅ 以及更多...

多模态模型

  • ✅ LLaVA 1.5/1.6
  • ✅ MiniCPM-V
  • ✅ Qwen2-VL
  • ✅ 以及更多...

主要工具

  • llama-cli - 命令行推理工具
  • llama-server - HTTP API 服务器
  • llama-bench - 性能基准测试
  • llama-perplexity - 模型质量评估

下一步

社区与支持


准备好开始了吗?让我们从安装指南开始吧!