xlite-dev

Awesome-LLM-Inference

xlite-dev

📚A curated list of Awesome LLM/VLM Inference Papers with Codes: Flash-Attention, Paged-Attention, WINT8/4, Parallelism, etc.🎉

AI 简介

Awesome-LLM-Inference 是一个精心整理的大规模语言模型(LLM)和视觉语言模型(VLM)推理相关论文及代码的资源库。该项目涵盖了Flash-Attention、Paged-Attention、WINT8/4量化以及并行计算等前沿技术,旨在为研究人员和开发者提供最新的高效推理方法和技术实现。其核心功能包括对多种优化技术的支持,如内存管理和加速策略,从而显著提升模型在不同硬件平台上的推理性能。适合于需要优化大规模预训练模型推理效率的各种应用场景,例如自然语言处理服务、图像识别系统等。

Python
GNU General Public License v3.0
5.3k
Stars
385
Forks
134
Watchers
3
Issues

Star 增长

今日0
近 7 天+12
近 30 天+61
综合评分75.86
默认分支main