chinese-llm-benchmark

jeinlee1991

非线智能 NoneLinear - ReLE评测：中文AI大模型能力评测（持续更新）：目前已囊括374个大模型，覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.0、qwen3.6-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型，以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。不仅提供排行榜，也提供规模超200万的大模型缺陷库！方便广大社区研究分析、改进大模型。

AI 简介

ReLE（Really Reliable Live Evaluation for LLM）是一个面向中文大语言模型的综合性能力评测基准项目，持续对370+商用与开源大模型进行多维度、细粒度的能力评估。核心功能包括覆盖教育、医疗、金融、法律、推理、数学、语言与指令遵从等7大领域及近300个细分任务的排行榜，以及包含超200万条缺陷样本的公开缺陷库，支持模型诊断、对比分析与针对性优化。项目采用结构化评测体系，强调真实场景下的能力各向异性分析，适用于AI研究者、模型开发者及行业应用方开展模型选型、能力短板定位与迭代改进。

agentic-ai artificial-intelligence llm-agent llm-evaluation

在 GitHub 查看官方网站

6.3k

Stars

256

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+41

综合评分64.33

默认分支main

chinese-llm-benchmark

Star 增长

加入交流群