NVIDIA

cutlass

NVIDIA

CUDA Templates and Python DSLs for High-Performance Linear Algebra

AI 简介

CUTLASS 是一个用于实现高性能矩阵乘法(GEMM)及相关计算的 CUDA 模板库。它通过层次分解和数据移动策略,将复杂的计算任务拆解为可重用的模块化组件,支持多种数据类型及混合精度计算,适用于 NVIDIA 的多个 GPU 架构。此外,CUTLASS 4.0 引入了 Python 原生接口(DSLs),使得用户无需深入掌握 C++ 即可编写高效 CUDA 内核代码,大幅降低了学习曲线,并提供了与深度学习框架无缝集成的能力。该项目特别适合需要在GPU上进行大规模线性代数运算的应用场景,如深度学习、科学计算等。

C++
Other
9.9k
Stars
1.9k
Forks
122
Watchers
483
Issues

Star 增长

今日+8
近 7 天+67
近 30 天+202
综合评分111.84
默认分支main