skyzh

tiny-llm

skyzh

A course of learning LLM inference serving on Apple Silicon for systems engineers: build a tiny vLLM + Qwen.

AI 简介

tiny-llm 是一个针对系统工程师的课程,旨在教授如何在Apple Silicon上进行大语言模型(如Qwen3)的推理服务。该项目使用MLX数组/矩阵API从零开始构建模型服务基础设施,并深入探讨优化技术。核心功能包括实现注意力机制、RoPE、KV缓存等关键组件,以及构建类似于vLLM但更简单的推理系统。通过三周的学习,参与者将掌握高效服务大型语言模型的技术细节。适合希望深入了解LLM推理过程及其底层实现原理的开发人员或研究者。整个项目基于Python编写,易于在macOS环境下运行,无需额外配置NVIDIA GPU。

Python
Apache License 2.0
4.3k
Stars
330
Forks
36
Watchers
7
Issues

Star 增长

今日0
近 7 天+32
近 30 天+83
综合评分83.86
默认分支main