
triton-llm-kernel-lab
zengxiao-he
暂无描述
AI 简介
该项目是一个用于大规模语言模型推理基础组件的小型GPU内核实验室,支持Python、Triton、PyTorch和CUDA。核心功能包括行级softmax、FP16 GEMM以及采用分块在线softmax的FlashAttention风格融合注意力前向内核,旨在提供可读性强且结果可复现的内核实现。适合于需要对LLM推理过程中的关键操作进行优化或研究的场景,特别是在探索不同GPU硬件配置下性能差异时尤为有用。项目结构清晰,提供了详细的基准测试脚本与验证方法,便于开发者快速上手并根据自身需求调整参数。
Python
MIT License132
Stars
1
Forks
28
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天+109
综合评分47.9
默认分支main