SGLang 文档#

SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言，使您与模型的交互更快且更可控。核心功能包括：

快速后端运行时：通过RadixAttention提供高效服务，支持前缀缓存、跳转约束解码、无开销CPU调度器、连续批处理、令牌注意力（分页注意力）、张量并行、FlashInfer内核、分块预填充和量化（FP8/INT4/AWQ/GPTQ）。
灵活的前端语言：为编程LLM应用程序提供了一个直观的界面，包括链式生成调用、高级提示、控制流、多模态输入、并行性和外部交互。
广泛的模型支持：支持多种生成模型（Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA等）、嵌入模型（e5-mistral、gte）和奖励模型（Skywork），并且易于扩展以集成新模型。
活跃的社区: SGLang 是开源的，并得到了一个活跃的社区的支持，该社区在业界得到了广泛采用。

入门指南

后端教程

前端教程

SGLang 路由器

参考文献