欢迎来到 vLLM!#
Easy, fast, and cheap LLM serving for everyone
vLLM 是一个用于 LLM 推理和服务的快速且易于使用的库。
vLLM 速度快,得益于:
最先进的处理吞吐量
使用 PagedAttention 高效管理注意力键和值内存
持续批处理传入的请求
使用 CUDA/HIP 图进行快速模型执行
优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。
推测性解码
分块预填充
vLLM 具有灵活性和易用性,支持:
与流行的 HuggingFace 模型无缝集成
通过各种解码算法实现高吞吐量服务,包括 并行采样、束搜索 等
张量并行和流水线并行支持分布式推理
流式输出
OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU,以及 AWS Trainium 和 Inferentia 加速器。
前缀缓存支持
多LoRa支持
更多信息,请查看以下内容:
vLLM 宣布博客文章 (PagedAttention 简介)
vLLM 论文 (SOSP 2023)
如何通过连续批处理在LLM推理中实现23倍吞吐量并减少p50延迟 作者:Cade Daniel 等人。
文档#
索引和表格#
总索引
模块索引