sapientinc

data_io

sapientinc

Data pipeline for HRM-Text pretraining

AI 简介

该项目是一个用于HRM-Text预训练的数据流水线,与传统的基于网页文档的大语言模型预训练不同,它生成指令式问答对,并构建采样后的分词数据集。核心功能包括数据清洗、BPE分词器训练、文本到token ID的转换以及分层采样策略下的平衡训练数据集创建。技术特点在于使用了Rust实现的高性能分词器和灵活的配置选项以适应不同的采样需求。适用于需要高质量、结构化数据输入的语言模型预训练场景,特别是对于那些旨在提高特定任务性能(如问答)的模型来说尤为适用。

Python
Apache License 2.0
55
Stars
7
Forks
1
Watchers
1
Issues

Star 增长

今日+1
近 7 天+5
近 30 天+7
综合评分47.91
默认分支main