纯C/C++实现
llama.cpp 采用纯 C/C++ 编写,无需任何外部依赖, 提供最佳的性能和跨平台兼容性,从嵌入式设备到高性能服务器都能流畅运行。
高效推理引擎
专为大语言模型推理优化,支持量化技术和硬件加速, 在保持模型质量的同时显著降低内存占用和计算成本。
多平台支持
支持 CPU、GPU(CUDA、OpenCL、Metal)等多种硬件平台, 兼容 Windows、macOS、Linux 等操作系统,满足各种部署需求。
纯C/C++实现的大语言模型推理引擎
llama.cpp 采用纯 C/C++ 编写,无需任何外部依赖, 提供最佳的性能和跨平台兼容性,从嵌入式设备到高性能服务器都能流畅运行。
专为大语言模型推理优化,支持量化技术和硬件加速, 在保持模型质量的同时显著降低内存占用和计算成本。
支持 CPU、GPU(CUDA、OpenCL、Metal)等多种硬件平台, 兼容 Windows、macOS、Linux 等操作系统,满足各种部署需求。