@josenlou 在 Google的Facts幻觉测试，Gemini 3 pro也只拿了68% 中发帖[IMG_4642] Google 发布全新 FACTS 基准测试，专门用来检测 AI 是否产生不实内容，即使是自家 Gemini 3 Pro 正确率也低于 70%，凸显 AI 模型的内容问题

@josenlou 在 Google的Facts幻觉测试，Gemini 3 pro也只拿了68% 中发帖

[IMG_4642] 
Google 发布全新 FACTS 基准测试，专门用来检测 AI 是否产生不实内容，即使是自家 Gemini 3 Pro 正确率也低于 70%，凸显 AI 模型的内容问题。 
随着生成式AI (Generative AI) 应用日益普及，大型语言模型 (LLM) 最令人头痛的「幻觉」 (Hallucination)问题——即AI一本正经地胡说八道，始终是业界极力想解决的痛点。为了更精确量化AI到底「有多诚实」，Google联合旗下的Google DeepMind、Google Cloud与Kaggle团队，发表一套名为FACTS (Factuality Assessment for Contemporary Text Synthesis,当代文本综合事实性评估) 的全新评估基准。 
不同于传统仅针对文本生成的测试，FACTS基准由四个针对不同能力的子测试组成，宛如...