@josenlouGoogle的Facts幻觉测试,Gemini 3 pro也只拿了68% 中发帖

[IMG_4642] 
Google 发布全新 FACTS 基准测试,专门用来检测 AI 是否产生不实内容,即使是自家 Gemini 3 Pro 正确率也低于 70%,凸显 AI 模型的内容问题。
随着生成式AI (Generative AI) 应用日益普及,大型语言模型 (LLM) 最令人头痛的「幻觉」 (Hallucination)问题——即AI一本正经地胡说八道,始终是业界极力想解决的痛点。为了更精确量化AI到底「有多诚实」,Google联合旗下的Google DeepMind、Google Cloud与Kaggle团队,发表一套名为FACTS (Factuality Assessment for Contemporary Text Synthesis,当代文本综合事实性评估) 的全新评估基准。
不同于传统仅针对文本生成的测试,FACTS基准由四个针对不同能力的子测试组成,宛如...