deepseek-ai

DeepGEMM

deepseek-ai

DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

AI 简介

DeepGEMM 是一个高性能的张量核心内核库,专注于现代大规模语言模型中的关键计算原语,如FP8、FP4和BF16的GEMM运算,以及融合MoE等。该项目利用CUDA编写,通过轻量级的即时编译模块在运行时编译所有内核,无需在安装过程中进行CUDA编译。它借鉴了CUTLASS和CuTe的一些概念,但避免了对它们模板或代数的重度依赖,设计简洁且易于理解。DeepGEMM适用于需要高效矩阵运算及深度学习加速的应用场景,特别是在NVIDIA GPU上执行大规模并行计算的任务中表现优异。

Cuda
MIT License
7.4k
Stars
1k
Forks
66
Watchers
49
Issues

Star 增长

今日0
近 7 天+25
近 30 天+97
综合评分87.25
默认分支main