club-3090

noonghunna

Community recipes for serving LLMs on RTX 3090/4090/5090 CUDA gpus. Multi-engine (vLLM, llama.cpp, ik_llama) and model-agnostic. Currently shipping Qwen3.6-27B Qwen3.6 35B Gemma 4 26B Gemma 4 31B configs for 1× and 2× cards.

AI 简介

这是一个面向消费级GPU（RTX 3090/4090）的本地大语言模型（LLM）服务部署方案集，提供开箱即用的多引擎、多模型配置。核心支持vLLM（高吞吐、全功能）、llama.cpp（超长上下文、高鲁棒性）等推理引擎，已验证Qwen3.6、Gemma-4等主流开源模型在单卡/双卡下的可行部署方案，并通过Docker Compose提供OpenAI兼容API。项目强调硬件适配性与工程稳定性，包含详尽的性能基准、内存优化补丁（如Genesis）及典型故障诊断（如prefill cliff）。适用于个人开发者、家庭实验室或轻量级开发后端等对成本、隐私和可控性有要求的本地LLM服务场景。

Python

Apache License 2.0

在 GitHub 查看

1.6k

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+157

综合评分63.85

默认分支master

club-3090

Star 增长

加入交流群