英国 Peter Gostev 公开项目 测试 AI 能否分辨出来这是胡说,还是一本正经的回答。 BullshitBench 衡量人工智能模型是否会质疑无意义的提示,而不是自信地回答它们,该工具由 Peter Gostev 创建。 贴出 github 源地址: bullshit-benchmark 测试结果 [image]