SGLang 文件#
Star ForkSGLang 是一個高效能的大型語言模型和多模態模型服務框架。它旨在為各種組態(從單 GPU 到大型分散式叢集)提供低延遲和高吞吐量的推理。其核心功能包括:
快速執行時 :透過 RadixAttention 提供高效率的服務,實現前綴快取、零開銷 CPU 排程器、預填充解碼分解、推測性解碼、連續批次處理、分頁注意力、張量/管道/專家/資料並行、結構化輸出、分塊預填充、量化(FP4/FP8/INT4/AWQ/GPTQ)和多量化。
廣泛的模型支援 :支援多種語言模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、獎勵模型(Skywork)和擴散模型(WAN、Qwen-Image),並可輕鬆擴充以新增模型。相容於大多數 Hugging Face 模型和 OpenAI API。
廣泛的硬體支援 :可在 NVIDIA GPU(GB200/B300/H100/A100/Spark/5090)、AMD GPU(MI355/MI300)、Intel Xeon CPU、Google TPU、Ascend NPU 等上執行。
活躍的社群 :SGLang 是開源的,並由一個充滿活力的社群支持,在業界廣泛應用,為全球超過 40 萬個 GPU 提供支援。
強化學習和訓練後骨幹 :SGLang 是一個經過驗證的部署後端,用於訓練許多前沿模型,具有原生強化學習集成,並被 AReaL、Miles、slime、Tunix、verl 等知名訓練後框架採用。
開始使用
基礎用法
進階功能
- Server Arguments
- Hyperparameter Tuning
- Attention Backend
- Speculative Decoding
- 結構化輸出
- Structured Outputs For Reasoning Models
- Tool Parser
- Reasoning Parser
- 量化
- Quantized KV Cache
- Expert Parallelism
- DP, DPA and SGLang DP Router
- LoRA Serving
- PD Disaggregation
- EPD Disaggregation
- Pipeline Parallelism for Long Context
- Hierarchical KV Caching (HiCache)
- Query VLM with Offline Engine
- DP for Multi-Modal Encoder in SGLang
- Cuda Graph for Multi-Modal Encoder in SGLang
- Piecewise CUDA Graph
- SGLang Model Gateway
- Deterministic Inference
- Observability
- Checkpoint Engine Integration
- SGLang for RL Systems
支援的模型
SGLang Diffusion
開發者指南
參考