ZEDA

TsinghuaC3I

Post-Trained MoE Can Skip Half Experts via Self-Distillation

AI 简介

ZEDA 是一个用于将完全训练好的静态混合专家（MoE）模型转换为高效动态模型的低成本框架。该项目通过在每个 MoE 层中注入无参数的零输出专家，并采用两阶段自蒸馏方法来适应增强模型，从而在几乎不牺牲准确性的前提下减少超过50%的专家计算量。其技术特点包括使用原始 MoE 作为固定教师模型以及应用组级平衡损失函数以稳定架构转换过程。ZEDA 特别适用于那些已经完成昂贵预训练和后训练的 MoE 模型场景，在这些场景中进一步降低推理成本是关键需求。

Python

MIT License

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+3

近 30 天+4

综合评分43.71

默认分支main