SGLang 文件#

SGLang 是一個高效能的大型語言模型和多模態模型服務框架。它旨在為各種組態（從單 GPU 到大型分散式叢集）提供低延遲和高吞吐量的推理。其核心功能包括：

快速執行時 ：透過 RadixAttention 提供高效率的服務，實現前綴快取、零開銷 CPU 排程器、預填充解碼分解、推測性解碼、連續批次處理、分頁注意力、張量/管道/專家/資料並行、結構化輸出、分塊預填充、量化（FP4/FP8/INT4/AWQ/GPTQ）和多量化。
廣泛的模型支援 ：支援多種語言模型（Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等）、嵌入模型（e5-mistral、gte、mcdse）、獎勵模型（Skywork）和擴散模型（WAN、Qwen-Image），並可輕鬆擴充以新增模型。相容於大多數 Hugging Face 模型和 OpenAI API。
廣泛的硬體支援 ：可在 NVIDIA GPU（GB200/B300/H100/A100/Spark/5090）、AMD GPU（MI355/MI300）、Intel Xeon CPU、Google TPU、Ascend NPU 等上執行。
活躍的社群 ：SGLang 是開源的，並由一個充滿活力的社群支持，在業界廣泛應用，為全球超過 40 萬個 GPU 提供支援。
強化學習和訓練後骨幹 ：SGLang 是一個經過驗證的部署後端，用於訓練許多前沿模型，具有原生強化學習集成，並被 AReaL、Miles、slime、Tunix、verl 等知名訓練後框架採用。

開始使用

基礎用法

支援的模型

SGLang Diffusion

硬體平臺

開發者指南

參考