FlexLLMGen

FMInference

Running large language models on a single GPU for throughput-oriented scenarios.

AI 简介

FlexLLMGen 是一个面向吞吐量优化的大语言模型（LLM）单卡推理引擎，专为在单块消费级GPU上高效执行批量生成任务而设计。其核心通过IO感知的权重卸载、模型压缩与动态大批次调度，在有限显存下显著提升tokens/秒的吞吐性能；支持GPT-3/OPT等主流开源LLM，无需多卡或高端硬件。适用于对延迟不敏感但需处理海量文本的后台任务，如大规模基准测试（HELM）、文档信息抽取、数据清洗与表单解析等离线批处理场景。

Python

Apache License 2.0

deep-learning gpt-3 high-throughput large-language-models machine-learning offloading opt

在 GitHub 查看

9.4k

Stars

589

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分64.51

默认分支main

FlexLLMGen

Star 增长

加入交流群