charent

ChatLM-mini-Chinese

charent

中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。

AI 简介

ChatLM-mini-Chinese是一个中文对话0.2B小模型,旨在为资源有限的用户提供一个轻量级的语言模型解决方案。该项目开源了从数据清洗、tokenizer训练到模型预训练、SFT指令微调以及RLHF优化的全部流程代码,并支持下游任务如三元组信息抽取的微调。技术上,它基于Huggingface NLP框架,包括transformers、accelerate等库,自定义实现了一个trainer以支持单机单卡或多卡训练,并允许在任意位置中断和恢复训练过程。此外,通过流式加载大数据集等优化手段,使得即使是在显存仅为4GB的设备上也能进行预训练。此项目非常适合那些希望在有限计算资源条件下探索语言模型训练与应用的研究者或开发者使用。

Python
Apache License 2.0
1.7k
Stars
194
Forks
13
Watchers
9
Issues

Star 增长

今日0
近 7 天0
近 30 天+6
综合评分55.47
默认分支main