Gemma-4-31B-MTP-vLLM-Server

alicankiraz1

A production-minded FastAPI sidecar for serving Gemma 4 31B on vLLM with Gemma 4 Multi-Token Prediction (MTP) speculative decoding.

AI 简介

这是一个面向生产环境的FastAPI网关服务，用于高效部署和管理Gemma-4-31B大语言模型，集成vLLM推理引擎与Gemma 4专属的多令牌预测（MTP）推测解码技术。核心功能包括OpenAI/Anthropic兼容API、API密钥认证、CORS控制、请求限流、健康/就绪探针、Prometheus指标采集及发布校验机制；技术特点为私有化vLLM后端隔离、支持张量并行、实测在双RTX 5090上达成2.1x平均吞吐提升。适用于本地或私有GPU集群上的高性能LLM API服务场景。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+3

综合评分42.84

默认分支main

Gemma-4-31B-MTP-vLLM-Server

Star 增长

加入交流群