
Muon
KellerJordan
Muon is an optimizer for hidden layers in neural networks
AI 简介
Muon 是一个专为神经网络隐藏层设计的优化器。其核心功能在于专门针对隐藏层权重进行优化,同时建议使用标准AdamW优化其他参数如嵌入、分类头和隐藏增益/偏置等。技术上,它通过调整动量、Nesterov加速梯度以及特定的学习率与权重衰减来提高训练效率。适合用于需要高效训练大规模神经网络模型的场景,特别是在图像识别(如CIFAR-10数据集)或自然语言处理任务中,能够显著减少达到指定性能所需的计算资源。
Python
MIT License2.7k
Stars
122
Forks
18
Watchers
20
Issues
Star 增长
今日+8
近 7 天+22
近 30 天+89
综合评分94.17
默认分支master