SGLang

SGLang #

https://docs.sglang.ai

SGLang是一个用于大语言模型和视觉语言模型的快速服务框架。

SGLang 通过协同设计后端运行时和前端语言,使您与模型的交互更快速、更可控。核心特性包括:

  • 快速后端运行时:通过 RadixAttention 提供高效服务,用于前缀缓存、跳跃前向约束解码、零开销 CPU 调度器、连续批处理、token 注意力(分页注意力)、张量并行、FlashInfer 内核、分块预填充以及量化(FP8/INT4/AWQ/GPTQ)。
  • 灵活的前端语言:为编程 LLM 应用程序提供直观的接口,包括链式生成调用、高级提示、控制流、多模态输入、并行处理和外部交互。
  • 广泛的模型支持:支持各种生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork),并可轻松扩展以集成新模型。
  • 活跃的社区:SGLang 是开源的,并得到活跃社区的支持,已在业界得到采用。
© 2025 青蛙小白 | 总访问量 | 总访客数