@maolon 在 openai新模型的幻觉率全面退步，与前代模型出现数倍差距中发帖从vectara的这个benchmark来看 o1(2.4%) → o3 (6.8%) new! 差距2.83倍 o3-mini-high (0.8%) → o4-mini (4.6%) new! 差距5.75倍附上deepseek作为参考值第 1 列第 2 列模型幻觉率OpenAI o3-mini-high0.8%OpenAI o12.4%DeepSeek-V2.52.4%DeepSeek-V33.9%OpenAI o4-mini4.6%OpenAI o36.8%DeepSeek-V3-03248.0%DeepSeek-R114.3%

@maolon 在 openai新模型的幻觉率全面退步，与前代模型出现数倍差距中发帖

从vectara的这个benchmark来看 
o1(2.4%) → o3 (6.8%) new! 
差距2.83倍 
o3-mini-high (0.8%) → o4-mini (4.6%) new! 
差距5.75倍 
附上deepseek作为参考值 




第 1 列
第 2 列




模型
幻觉率


OpenAI o3-mini-high
0.8%


OpenAI o1
2.4%


DeepSeek-V2.5
2.4%


DeepSeek-V3
3.9%


OpenAI o4-mini
4.6%


OpenAI o3
6.8%


DeepSeek-V3-0324
8.0%


DeepSeek-R1
14.3%