HanGuo97

coda-kernels

HanGuo97

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

AI 简介

CODA 是一个GPU内核抽象项目,它将Transformer操作符表达为GEMM-plus-epilogue程序,通过在GEMM输出块写入全局内存之前融合归一化、激活、残差更新和缩减等操作,结合了框架级别的生产力与硬件级别的效率。基于CUTLASS CuTeDSL构建,CODA特别针对NVIDIA Hopper (H100) GPU进行了优化。其核心功能包括自动调优每个内核以适应新的输入配置,并提供了从基础的GEMM-plus-epilogue到完整的Transformer块(不包括注意力机制)的多层次实现。该项目非常适合需要高效执行Transformer模型推理或训练任务的场景,尤其是在追求高性能计算的同时希望保持代码简洁性的开发者群体中具有广泛的应用前景。

Python
202
Stars
21
Forks
3
Watchers
1
Issues

Star 增长

今日0
近 7 天+9
近 30 天+139
综合评分55.53
默认分支main