SGLang

https://docs.sglang.ai

SGLang是一个用于大语言模型和视觉语言模型的快速服务框架。

SGLang 通过协同设计后端运行时和前端语言，使您与模型的交互更快速、更可控。核心特性包括：

快速后端运行时：通过 RadixAttention 提供高效服务，用于前缀缓存、跳跃前向约束解码、零开销 CPU 调度器、连续批处理、token 注意力(分页注意力)、张量并行、FlashInfer 内核、分块预填充以及量化(FP8/INT4/AWQ/GPTQ)。
灵活的前端语言：为编程 LLM 应用程序提供直观的接口，包括链式生成调用、高级提示、控制流、多模态输入、并行处理和外部交互。
广泛的模型支持：支持各种生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork)，并可轻松扩展以集成新模型。
活跃的社区：SGLang 是开源的，并得到活跃社区的支持，已在业界得到采用。