deepseek-ai

DeepEP

deepseek-ai

DeepEP: an efficient expert-parallel communication library

AI 简介

DeepEP 是一个面向现代机器学习训练和推理的高性能通信库,专注于专家并行(EP)技术。该项目提供高吞吐量、低延迟的全对全GPU内核(如MoE分发与合并),支持包括FP8在内的低精度计算,并实验性地提供了管道并行、上下文并行以及远程内存访问等功能,所有这些都设计为占用尽可能少甚至零SM资源。通过轻量级即时编译模块在运行时编译所有内核,安装过程中无需CUDA编译。DeepEP适用于需要高效处理大规模数据集及模型的大规模分布式训练场景,特别是在追求极致性能同时希望减少硬件资源消耗的情况下表现优异。

Cuda
MIT License
9.7k
Stars
1.3k
Forks
104
Watchers
191
Issues

Star 增长

今日0
近 7 天+9
近 30 天+83
综合评分78.12
默认分支main