xlite-dev

LeetCUDA

xlite-dev

📚LeetCUDA: Modern CUDA Learn Notes with PyTorch for Beginners🐑, 200+ CUDA Kernels, Tensor Cores, HGEMM, FA-2 MMA.🎉

AI 简介

LeetCUDA 是一个面向初学者的现代 CUDA 学习笔记项目,结合了 PyTorch 使用。该项目包含超过 200 个 CUDA 内核示例、Tensor 核心支持、HGEMM 实现(性能接近 cuBLAS 的 98%~100%)以及基于 Tensor 核心的 Flash Attention 实现。这些内容通过详细的代码和文档帮助用户快速掌握 CUDA 编程技巧及其在深度学习中的应用。LeetCUDA 适合那些希望深入了解 GPU 并行计算技术,并且想要利用 NVIDIA 硬件加速机器学习模型训练与推理过程的研究者或开发者使用。

Cuda
GNU General Public License v3.0
11.2k
Stars
1.1k
Forks
56
Watchers
1
Issues

Star 增长

今日+31
近 7 天+96
近 30 天+289
综合评分119.18
默认分支main