KellerJordan

Muon

KellerJordan

Muon is an optimizer for hidden layers in neural networks

AI 简介

Muon 是一个专为神经网络隐藏层设计的优化器。其核心功能在于专门针对隐藏层权重进行优化,同时建议使用标准AdamW优化其他参数如嵌入、分类头和隐藏增益/偏置等。技术上,它通过调整动量、Nesterov加速梯度以及特定的学习率与权重衰减来提高训练效率。适合用于需要高效训练大规模神经网络模型的场景,特别是在图像识别(如CIFAR-10数据集)或自然语言处理任务中,能够显著减少达到指定性能所需的计算资源。

Python
MIT License
2.7k
Stars
122
Forks
18
Watchers
20
Issues

Star 增长

今日+8
近 7 天+22
近 30 天+89
综合评分94.17
默认分支master