uccl-project

mKernel

uccl-project

mKernel: fast multi-node, multi-GPU fused kernels

AI 简介

mKernel 是一个专为多节点、多GPU环境设计的融合内核库,旨在加速分布式计算任务。它支持在同一内核中处理节点内和节点间的GPU驱动通信,通过细粒度的内核重叠技术实现计算与通信在块级别上的并行执行。此外,mKernel利用持久化内核和流多处理器(SM)的专业化来分配不同角色给协作线程阵列(CTAs),如计算、内部通信、跨节点发送或减少操作,并且基于Libibverbs从零构建了GPU驱动的网络层以达到最佳性能。该项目适用于需要高性能分布式计算的应用场景,特别是那些涉及大规模矩阵运算和数据交换的任务,比如深度学习模型训练等。

Cuda
MIT License
231
Stars
22
Forks
1
Watchers
1
Issues

Star 增长

今日+15
近 7 天+20
近 30 天+97
综合评分83.79
默认分支main