alibaba-multimodal-industrial-ai

IndustryBench

alibaba-multimodal-industrial-ai

A multi-lingual benchmark for evaluating industrial domain knowledge of LLMs.

AI 简介

IndustryBench 是一个用于评估大语言模型在工业领域知识掌握情况的多语言基准测试工具。该项目基于Python开发,包含2049个与中文国家标准(GB/T)或结构化工业产品记录相关联的条目,并提供经过人工审核的英文、俄文和越南文版本。每个条目都标注了7种能力维度、10个行业类别以及难度等级(简单/中等/困难)。适合需要验证其AI系统在无参考材料情况下处理工业采购问答任务表现的研究者和开发者使用。此外,项目还提供了一套评分管道,包括一个校准过的大语言模型裁判来评估答案的准确性及安全违规检查。

Python
MIT License
152
Stars
10
Forks
8
Watchers
1
Issues

Star 增长

今日0
近 7 天0
近 30 天+78
综合评分50.92
默认分支main