
ZEDA
TsinghuaC3I
Post-Trained MoE Can Skip Half Experts via Self-Distillation
AI 简介
ZEDA 是一个用于将完全训练好的静态混合专家(MoE)模型转换为高效动态模型的低成本框架。该项目通过在每个 MoE 层中注入无参数的零输出专家,并采用两阶段自蒸馏方法来适应增强模型,从而在几乎不牺牲准确性的前提下减少超过50%的专家计算量。其技术特点包括使用原始 MoE 作为固定教师模型以及应用组级平衡损失函数以稳定架构转换过程。ZEDA 特别适用于那些已经完成昂贵预训练和后训练的 MoE 模型场景,在这些场景中进一步降低推理成本是关键需求。
Python
MIT License35
Stars
3
Forks
30
Watchers
0
Issues
Star 增长
今日0
近 7 天+3
近 30 天+4
综合评分43.71
默认分支main