跳到主要内容

LLAMA.CPP 中文文档

纯C/C++实现的大语言模型推理引擎

Easy to Use

纯C/C++实现

llama.cpp 采用纯 C/C++ 编写,无需任何外部依赖, 提供最佳的性能和跨平台兼容性,从嵌入式设备到高性能服务器都能流畅运行。

Focus on What Matters

高效推理引擎

专为大语言模型推理优化,支持量化技术和硬件加速, 在保持模型质量的同时显著降低内存占用和计算成本。

Powered by React

多平台支持

支持 CPU、GPU(CUDA、OpenCL、Metal)等多种硬件平台, 兼容 Windows、macOS、Linux 等操作系统,满足各种部署需求。