SGLang 文档#
SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。 它通过共同设计后端运行时和前端语言,使您与模型的交互更快且更可控。 核心功能包括:
快速后端运行时:通过RadixAttention提供高效服务,支持前缀缓存、跳转约束解码、无开销CPU调度器、连续批处理、令牌注意力(分页注意力)、张量并行、FlashInfer内核、分块预填充和量化(FP8/INT4/AWQ/GPTQ)。
灵活的前端语言:为编程LLM应用程序提供了一个直观的界面,包括链式生成调用、高级提示、控制流、多模态输入、并行性和外部交互。
广泛的模型支持:支持多种生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA等)、嵌入模型(e5-mistral、gte)和奖励模型(Skywork),并且易于扩展以集成新模型。
活跃的社区: SGLang 是开源的,并得到了一个活跃的社区的支持,该社区在业界得到了广泛采用。