weicj

vLLM-2080Ti-Definitive

weicj

The definitive vLLM runtime for dual RTX 2080 Ti 22GB + NVLink, delivering 27B/31B local inference with 100+ tok/s single-request decode with support of FP8 weight

Python
Apache License 2.0 最后更新 2026年6月10日活跃
149
Stars
25
Forks
51
Watchers
5
Issues

Star 增长

今日+31
近 7 天+64
近 30 天+64
综合评分90.49
默认分支sm75-tp2-cu128-stable