
bullshit-benchmark
petergpt
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev.
AI 简介
BullshitBench 是一个用于评估AI模型是否能识别并拒绝无意义提示的工具。该项目通过一系列精心设计的问题来测试AI模型在面对不合逻辑或错误假设时的表现,主要使用Python语言编写。它能够量化模型对不同领域(如软件、金融、法律、医学和物理)中无意义内容的检测率,并提供多种可视化图表帮助用户理解结果,包括按模型、领域和时间维度展示的检测性能。BullshitBench适合需要评估AI系统批判性思维能力的研究者和开发者使用,在确保生成的内容质量方面具有重要价值。
Python
MIT License1.7k
Stars
65
Forks
12
Watchers
13
Issues
Star 增长
今日+11
近 7 天+27
近 30 天+90
综合评分95.96
默认分支main