
text-generation-inference
huggingface
Large Language Model Text Generation Inference
AI 简介
Text Generation Inference (TGI) 是一个用于部署和服务大规模语言模型(LLM)的工具包。它支持包括Llama、Falcon、StarCoder等在内的多种流行开源LLM,提供高效文本生成服务。其核心功能包括简易启动器、生产级特性如分布式追踪和Prometheus监控指标、张量并行化以加速多GPU推理、基于Server-Sent Events的令牌流传输以及持续批量处理请求以提高整体吞吐量。此外,TGI还兼容Open AI Chat Completion API的消息API,并通过Flash Attention等技术优化了transformers代码以提升推理性能。该项目适合需要高性能文本生成服务的应用场景,比如在线聊天机器人、自动内容创作系统等。
Python
Apache License 2.010.9k
Stars
1.3k
Forks
99
Watchers
285
Issues
Star 增长
今日0
近 7 天+3
近 30 天+11
综合评分71.91
默认分支main