
club-3090
noonghunna
Community recipes for serving LLMs on RTX 3090/4090/5090 CUDA gpus. Multi-engine (vLLM, llama.cpp, ik_llama) and model-agnostic. Currently shipping Qwen3.6-27B Qwen3.6 35B Gemma 4 26B Gemma 4 31B configs for 1× and 2× cards.
AI 简介
club-3090 项目旨在为 RTX 3090 显卡用户提供本地运行大型语言模型(LLMs)的配置和方案。该项目支持多引擎(vLLM、llama.cpp、SGLang)和多种模型,并且设计上对模型无特定要求,当前提供了 Qwen3.6-27B 在单张及双张显卡上的配置。其核心功能包括通过 vLLM 实现最大吞吐量(最高可达 127 TPS),以及利用 llama.cpp 提供最大稳健性(支持 262K 上下文长度)。项目还提供了经过验证的 Docker Compose 配置文件,方便用户快速部署与 OpenAI 兼容的 API 接口。适用于拥有 RTX 3090 的个人开发者或小型实验室环境,在家中或开发后端运行现代 LLMs。
Python
Apache License 2.01.3k
Stars
67
Forks
22
Watchers
15
Issues
Star 增长
今日0
近 7 天+66
近 30 天+582
综合评分83.5
默认分支master