@maolon 在 openai新模型的幻觉率全面退步,与前代模型出现数倍差距 中发帖
从vectara的这个benchmark来看
o1(2.4%) → o3 (6.8%) new!
差距2.83倍
o3-mini-high (0.8%) → o4-mini (4.6%) new!
差距5.75倍
附上deepseek作为参考值
第 1 列
第 2 列
模型
幻觉率
OpenAI o3-mini-high
0.8%
OpenAI o1
2.4%
DeepSeek-V2.5
2.4%
DeepSeek-V3
3.9%
OpenAI o4-mini
4.6%
OpenAI o3
6.8%
DeepSeek-V3-0324
8.0%
DeepSeek-R1
14.3%