coda-kernels

HanGuo97

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

AI 简介

CODA 是一个面向 NVIDIA Hopper 架构 GPU 的高性能 Transformer 核心算子优化框架，将注意力输出投影、残差连接、RMSNorm、SwiGLU 等操作重参数化为 GEMM 加 epilogue 的融合内核，在硬件层面实现内存带宽与计算效率的协同优化。其基于 CUTLASS CuTeDSL 构建，支持 bfloat16 精度下的自动调优与细粒度 tile 级融合，显著减少中间内存访存。适用于大语言模型推理与训练中对延迟和吞吐敏感的 Transformer 块加速场景，尤其适合部署在 H100 等新一代 GPU 上的高算力需求任务。

Python

在 GitHub 查看官方网站

202

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分41.03

默认分支main

coda-kernels

Star 增长

加入交流群