qwen3.6-windows-server

devnen

One-click Qwen3.6-27B inference on Windows. 158 tok/s on RTX 5090, 72 tok/s on RTX 3090. Native, no WSL, no Docker, no telemetry.

AI 简介

这是一个为Windows平台设计的本地大语言模型推理服务工具，支持一键启动通义千问Qwen3.6-27B模型（INT4量化），提供OpenAI兼容API接口。核心特点是纯原生Windows运行（无需WSL/Docker/conda）、零遥测、内置Textual TUI配置管理界面，并针对RTX 3090/5090等NVIDIA显卡优化性能（实测最高158 token/s）。所有依赖（含定制vLLM Windows轮子）均打包在可执行压缩包中，解压即用。适用于注重隐私、离线部署、快速验证或本地AI应用集成的开发与研究场景。

Python

llm-inference local-llm offline-ai privacy qwen qwen3 rtx-3090 textual-tui vllm windows

在 GitHub 查看

218

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+6

综合评分4.09

默认分支main

qwen3.6-windows-server

Star 增长

加入交流群