@maolonopenai新模型的幻觉率全面退步,与前代模型出现数倍差距 中发帖

从vectara的这个benchmark来看 
o1(2.4%) → o3 (6.8%) new!
差距2.83倍
o3-mini-high (0.8%) → o4-mini (4.6%) new!
差距5.75倍
附上deepseek作为参考值




第 1 列
第 2 列




模型
幻觉率


OpenAI o3-mini-high
0.8%


OpenAI o1
2.4%


DeepSeek-V2.5
2.4%


DeepSeek-V3
3.9%


OpenAI o4-mini
4.6%


OpenAI o3
6.8%


DeepSeek-V3-0324
8.0%


DeepSeek-R1
14.3%