SGLang 文件

SGLang 文件#

Star Fork

SGLang 是一個高效能的大型語言模型和多模態模型服務框架。它旨在為各種組態(從單 GPU 到大型分散式叢集)提供低延遲和高吞吐量的推理。其核心功能包括:

  • 快速執行時 :透過 RadixAttention 提供高效率的服務,實現前綴快取、零開銷 CPU 排程器、預填充解碼分解、推測性解碼、連續批次處理、分頁注意力、張量/管道/專家/資料並行、結構化輸出、分塊預填充、量化(FP4/FP8/INT4/AWQ/GPTQ)和多量化。

  • 廣泛的模型支援 :支援多種語言模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、獎勵模型(Skywork)和擴散模型(WAN、Qwen-Image),並可輕鬆擴充以新增模型。相容於大多數 Hugging Face 模型和 OpenAI API。

  • 廣泛的硬體支援 :可在 NVIDIA GPU(GB200/B300/H100/A100/Spark/5090)、AMD GPU(MI355/MI300)、Intel Xeon CPU、Google TPU、Ascend NPU 等上執行。

  • 活躍的社群 :SGLang 是開源的,並由一個充滿活力的社群支持,在業界廣泛應用,為全球超過 40 萬個 GPU 提供支援。

  • 強化學習和訓練後骨幹 :SGLang 是一個經過驗證的部署後端,用於訓練許多前沿模型,具有原生強化學習集成,並被 AReaL、Miles、slime、Tunix、verl 等知名訓練後框架採用。

開始使用