KernelFlow-ops

cuda-optimized-skill

KernelFlow-ops

A CUDA kernel optimization toolkit for validation, benchmarking, Nsight Compute profiling, bottleneck analysis, and iterative tuning. It helps improve custom GPU operators with reproducible workflows and evidence-based performance comparison.

AI 简介

cuda-optimized-skill 是一个用于验证、基准测试、Nsight Compute 分析、瓶颈分析和迭代调优的 CUDA 内核优化工具包。它通过可重现的工作流程和基于证据的性能比较,帮助改进自定义 GPU 操作符。项目采用 Python 编写,并利用 `nsight-compute` (`ncu`) 作为每个优化决策的依据。核心功能包括 Roofline 驱动的轴预算分配、分支选择探索、消融归因以及 SASS 指令级验证等机制,以实现更精细的方法分类与优化效果评估。适用于需要对 CUDA/CUTLASS/Triton 内核进行深度优化且追求极致性能的应用场景,如高性能计算、深度学习模型加速等领域。

Python
MIT License
177
Stars
17
Forks
152
Watchers
1
Issues

Star 增长

今日+3
近 7 天+3
近 30 天+24
综合评分53.67
默认分支main