Mega4alik

ollm

Mega4alik

暂无描述

AI 简介

oLLM是一个轻量级的Python库,专为大型上下文离线工作负载提供大模型推理服务。该库基于Huggingface Transformers和PyTorch构建,支持运行如gpt-oss-20B、qwen3-next-80B或Llama-3.1-8B-Instruct等模型,在约200美元消费级GPU(8GB显存)上处理长达10万token的上下文长度,且仅使用fp16/bf16精度而不依赖量化技术。其核心功能包括AutoInference支持多种Llama3/gemma3模型及PEFT适配器、可选的kvikio与flash-attn优化以及新增的多模态模型支持,例如voxtral-small-24B(音频+文本)和gemma3-12B(图像+文本)。此外,通过特定实现如gpt-oss-20B的分块MLP设计显著降低了显存占用。oLLM非常适合那些希望在有限硬件资源下高效执行大规模语言模型推理任务的研究者和个人开发者使用。

Python
MIT License
2.7k
Stars
251
Forks
30
Watchers
18
Issues

Star 增长

今日0
近 7 天0
近 30 天+45
综合评分50.7
默认分支main