triton-llm-kernel-lab

zengxiao-he

暂无描述

AI 简介

这是一个面向大语言模型（LLM）推理加速的GPU内核实验仓库，提供可读、可验证的Triton实现核心算子。项目包含三类关键内核：行归一化Softmax（支持数值稳定与SRAM优化）、FP16矩阵乘法（带FP32累加与L2缓存优化）、以及FlashAttention风格的融合注意力前向计算（支持prefill与简单decode场景，采用分块在线Softmax避免显式存储全注意力矩阵）。所有内核均附带PyTorch参考实现与严格正确性验证，并通过本地基准测试框架支持可复现性能评估。适用于LLM推理系统开发者、高性能算子研究人员及Triton内核学习者进行原型验证与性能调优。

Python

MIT License

在 GitHub 查看

129

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分37.9

默认分支main

triton-llm-kernel-lab

Star 增长

加入交流群