jeinlee1991

chinese-llm-benchmark

jeinlee1991

非线智能 NoneLinear - ReLE评测:中文AI大模型能力评测(持续更新):目前已囊括374个大模型,覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.0、qwen3.6-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型, 以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。不仅提供排行榜,也提供规模超200万的大模型缺陷库!方便广大社区研究分析、改进大模型。

AI 简介

ReLE评测是一个专注于中文AI大模型能力的评估平台,涵盖了375个商用和开源的大模型。该项目支持多维度的能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从等7个领域,以及细分的约300个具体维度。其核心功能在于提供详尽的排行榜和一个规模超过200万的大模型缺陷库,为研究者提供了丰富的数据资源以分析和改进大模型性能。ReLE评测适用于需要对中文大模型进行综合或专项能力评估的场景,如学术研究、产品开发及质量保证等。

6.2k
Stars
249
Forks
67
Watchers
15
Issues

Star 增长

今日+2
近 7 天+30
近 30 天+157
综合评分89.19
默认分支main