autoresearch-qwen

wadeKeith

Autonomous Qwen3-VL training-code research on the official DocVQA benchmark. main: NVIDIA multi-GPU, mlx: Apple Silicon/MPS.

AI 简介

这是一个面向文档视觉语言模型（VLM）自主优化的研究框架，专注于在DocVQA基准上持续改进Qwen3-VL-4B-Instruct模型的训练策略。项目采用固定评估契约（固定数据集、评测指标ANLS、验证集与评测脚本），仅允许智能体迭代修改train.py实现训练逻辑优化，并通过自动化的准备→训练→评估→决策循环筛选真实性能提升。支持NVIDIA多卡CUDA（main分支）和Apple Silicon MPS（mlx分支）双硬件后端，强调可复现性与公开基准导向。适用于VLM训练方法研究、文档理解模型调优及自主AI实验系统开发等场景。

Python

MIT License

agentic-ai autoresearch docvqa qwen vision-language-model

在 GitHub 查看

211

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分44.59

默认分支main

autoresearch-qwen

Star 增长

加入交流群