sgl-project

mini-sglang

sgl-project

A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems.

AI 简介

Mini-SGLang 是一个轻量级且高性能的大规模语言模型推理框架。该项目通过约5000行Python代码实现了先进的优化技术,包括Radix缓存、分块预填充、重叠调度、张量并行和优化内核(如FlashAttention和FlashInfer),从而在保持简洁易读的同时达到卓越的吞吐量和低延迟。这些特性使其特别适合于需要高效处理复杂LLM服务系统的场景,例如科研实验、开发测试以及对现有系统进行性能优化等。此外,Mini-SGLang目前仅支持Linux平台(x86_64和aarch64架构),对于Windows或macOS用户建议使用WSL2或Docker来实现兼容性。

Python
MIT License
4.4k
Stars
693
Forks
16
Watchers
11
Issues

Star 增长

今日0
近 7 天+32
近 30 天+191
综合评分86.52
默认分支main