bandyah

uni-mm-trainer

bandyah

A small library for training multimodal LLMs combining text, vision, and audio

AI 简介

UniMM-Trainer 是一个用于训练结合文本、视觉和音频的多模态大模型的小型库。其核心功能包括方便地组合编码器(如冻结的音频或视觉编码器与语言模型),简化投影层的训练过程,以及在长时间运行中跟踪实际进展。该库支持多种流行的预训练模型,并通过配置文件灵活管理不同模态的集成。适用于需要快速搭建并实验多模态模型的研究场景,但不适用于生产环境部署。使用Python编写,易于安装和扩展。

Python
Other
224
Stars
6.2k
Forks
7
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天+191
综合评分60
默认分支main