PKU-YuanGroup

TIDE

PKU-YuanGroup

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

AI 简介

TIDE 是一个用于扩散大语言模型的跨架构蒸馏框架,能够将80亿参数密集型和160亿参数混合专家系统教师模型的知识提炼到一个0.6亿参数的学生模型中。该项目通过TIDAL、CompDemo和Reverse CALM三个模块化组件,在不同架构、注意力机制及分词器之间搭建知识传递桥梁。TIDE在多个基准测试上相比非蒸馏基线平均提升了1.53个点,并且在代码生成任务上表现尤为出色,同时实现了22倍的峰值内存减少和5.2倍的推理加速,使得大模型能够在普通硬件上部署运行。适用于需要优化大型语言模型资源消耗或提升特定任务性能的场景。

Python
Other
69
Stars
3
Forks
2
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天0
综合评分41.81
默认分支main