MLS-Bench

Imbernoulli

暂无描述

AI 简介

MLS-Bench 是一个面向机器学习科学研究的基准测试框架，旨在评估AI代理在提出可迁移算法改进（如新损失函数、优化器或训练策略）方面的能力。它涵盖12个ML研究领域共140项任务，每项任务提供固定研究骨架、源码与强基线，要求代理在受限编辑范围内实现具有跨数据集、随机种子和规模泛化性的算法创新。支持Docker/Apptainer/Conda容器运行时与SLURM或内置调度器，具备Harbor兼容运行环境及预构建任务镜像。适用于ML系统研究、AI for Science、自动化机器学习方法论评估等场景。

Python

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分36.3

默认分支main

MLS-Bench

Star 增长

加入交流群