petergpt

bullshit-benchmark

petergpt

BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev.

AI 简介

BullshitBench 是一个用于评估AI模型是否能识别并拒绝无意义提示的工具。该项目通过一系列精心设计的问题来测试AI模型在面对不合逻辑或错误假设时的表现,主要使用Python语言编写。它能够量化模型对不同领域(如软件、金融、法律、医学和物理)中无意义内容的检测率,并提供多种可视化图表帮助用户理解结果,包括按模型、领域和时间维度展示的检测性能。BullshitBench适合需要评估AI系统批判性思维能力的研究者和开发者使用,在确保生成的内容质量方面具有重要价值。

Python
MIT License
1.7k
Stars
65
Forks
12
Watchers
13
Issues

Star 增长

今日+11
近 7 天+27
近 30 天+90
综合评分95.96
默认分支main