
data-juicer
datajuicer
Data processing for and with foundation models! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷
AI 简介
Data-Juicer 是一个面向基础模型时代的数据处理系统,旨在将原始数据转化为可用于AI的智能信息。它提供了一系列模块化组件,支持数据清洗、合成和分析等功能,适用于整个AI生命周期的数据处理需求。Data-Juicer 支持多模态数据处理,具备云原生特性,能够无缝扩展至大规模集群环境,无需编写额外的粘合代码。特别适合需要处理大规模预训练语料库、管理代理交互记录或准备特定领域检索增强生成(RAG)索引等场景。该项目由Python语言开发,采用Apache License 2.0开源许可协议,并已被阿里云PAI深度集成于其数据处理产品中。
Python
Apache License 2.06.5k
Stars
377
Forks
20
Watchers
36
Issues
Star 增长
今日0
近 7 天+34
近 30 天+100
综合评分90.73
默认分支main