cleanlab

cleanlab

cleanlab

Cleanlab's open-source library is the standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

AI 简介

cleanlab 是一个专注于数据质量和机器学习的开源库,特别适用于处理带有噪声标签的真实世界数据。其核心功能包括自动检测并修复数据集中的问题(如异常值、重复项、标签错误等),通过利用现有模型来估计和解决这些问题,从而帮助训练更准确的模型。该工具支持多种类型的数据集,包括文本、音频、图像以及表格数据,并且能够进行主动学习以建议优先标注的数据点。它非常适合需要提升数据质量以优化机器学习性能的各种应用场景,例如在构建高质量训练集时或是在多标注者环境下确保标签一致性。

Python
Apache License 2.0
11.5k
Stars
899
Forks
86
Watchers
73
Issues

Star 增长

今日0
近 7 天+8
近 30 天+48
综合评分67.66
默认分支master