FMInference

FlexLLMGen

FMInference

Running large language models on a single GPU for throughput-oriented scenarios.

AI 简介

FlexLLMGen 是一个用于在单个GPU上运行大型语言模型以实现高吞吐量生成的引擎。它通过高效的IO卸载、压缩技术和大有效批量处理来支持高吞吐量推理,特别适用于对延迟不敏感但需要处理大量数据的任务场景,如公司文档的大规模信息提取或HELM基准测试中的任务处理。该项目旨在利用低成本硬件(如单一商用GPU)为基于基础模型的应用提供高性能解决方案,尤其适合那些需要批量处理文本数据而不需要即时响应的后台任务。虽然对于小批量处理情况其性能可能不如直接使用强大GPU时的表现,但在优化后的高吞吐量设置下,FlexLLMGen展现出了显著的成本效益。

Python
Apache License 2.0
9.4k
Stars
590
Forks
5
Watchers
52
Issues

Star 增长

今日0
近 7 天0
近 30 天+5
综合评分44.81
默认分支main