
Gemma-4-31B-MTP-vLLM-Server
alicankiraz1
A production-minded FastAPI sidecar for serving Gemma 4 31B on vLLM with Gemma 4 Multi-Token Prediction (MTP) speculative decoding.
AI 简介
该项目是一个面向生产的FastAPI辅助服务,用于通过vLLM平台提供Gemma 4 31B模型,并支持Gemma 4多令牌预测(MTP)推测解码。其核心功能包括OpenAI和Anthropic兼容的HTTP API、API密钥认证、CORS控制、速率限制、有界准入控制、健康/就绪诊断以及Prometheus风格的网关指标。此外,该服务在性能上显著优于基线Gemma 4 31B模型,在不同场景下平均提速约2.12倍。此项目特别适合于本地或私有GPU环境下的高效文本生成任务部署,如聊天机器人、内容创作等应用场景。
Python
Apache License 2.042
Stars
4
Forks
29
Watchers
0
Issues
Star 增长
今日+2
近 7 天+12
近 30 天+13
综合评分53.4
默认分支main