text-generation-inference

huggingface

Large Language Model Text Generation Inference

AI 简介

Text Generation Inference（TGI）是一个面向生产环境的高性能大语言模型（LLM）文本生成推理服务，采用 Rust 核心 + Python 接口 + gRPC 架构。它支持主流开源模型（如 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX），提供连续批处理、张量并行、Flash Attention 和 Paged Attention 加速、SSE 流式响应及 OpenAI 兼容的 Messages API。适用于需要低延迟、高吞吐的 LLM 在线服务场景，如聊天应用、API 网关和推理托管平台。

Python

Apache License 2.0

bloom deep-learning falcon gpt inference nlp pytorch starcoder transformer

在 GitHub 查看官方网站

10.9k

Stars

1.3k

Forks

100

Watchers

285

Issues

Star 增长

今日0

近 7 天0

近 30 天+8

综合评分70.11

默认分支main

text-generation-inference

Star 增长

加入交流群