欢迎来到 vLLM!

欢迎来到 vLLM!#

vLLM

Easy, fast, and cheap LLM serving for everyone

Star Watch Fork

vLLM 是一个用于 LLM 推理和服务的快速且易于使用的库。

vLLM 速度快,得益于:

  • 最先进的处理吞吐量

  • 使用 PagedAttention 高效管理注意力键和值内存

  • 持续批处理传入的请求

  • 使用 CUDA/HIP 图进行快速模型执行

  • 量化:GPTQ, AWQ, INT4, INT8, 和 FP8

  • 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。

  • 推测性解码

  • 分块预填充

vLLM 具有灵活性和易用性,支持:

  • 与流行的 HuggingFace 模型无缝集成

  • 通过各种解码算法实现高吞吐量服务,包括 并行采样束搜索

  • 张量并行和流水线并行支持分布式推理

  • 流式输出

  • OpenAI 兼容的 API 服务器

  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU,以及 AWS Trainium 和 Inferentia 加速器。

  • 前缀缓存支持

  • 多LoRa支持

更多信息,请查看以下内容:

文档#

自动前缀缓存

性能基准测试

索引和表格#

  • 总索引

  • 模块索引