跳到主要内容

LLAMA.CPP 中文文档

纯C/C++实现的大语言模型推理引擎

Docusaurus Tutorial - 5min ⏱️

纯C/C++实现

llama.cpp 采用纯 C/C++ 编写，无需任何外部依赖，提供最佳的性能和跨平台兼容性，从嵌入式设备到高性能服务器都能流畅运行。

高效推理引擎

专为大语言模型推理优化，支持量化技术和硬件加速，在保持模型质量的同时显著降低内存占用和计算成本。

多平台支持

支持 CPU、GPU（CUDA、OpenCL、Metal）等多种硬件平台，兼容 Windows、macOS、Linux 等操作系统，满足各种部署需求。