Mozi (@yeahhe)【资源分享】Hallucination Leaderboard:大模型幻觉排行榜 中发帖

幻觉排行榜
这是一个公开的 LLM(大型语言模型)排行榜,使用 Vectara 的 Hughes 幻觉评估模型 计算得出。该模型评估 LLM 在总结文档时产生幻觉(即编造信息)的频率。随着我们的模型和 LLM 的不断更新,我们计划定期更新此排行榜。
也欢迎查看我们在 Hugging Face 上的 幻觉排行榜。
此排行榜中的排名是使用 HHEM-2.1 幻觉评估模型计算的。
如果您对之前基于 HHEM-1.0 的排行榜感兴趣,可以在 这里 找到。



[图片]


深切缅怀 Simon Mark Hughes...



最后更新于 2025 年 4 月 29 日
[图:各种 LLM 的幻觉率]




模型 (Model)
幻觉率 (Hallucination Rate)
事实一致性率 (Factual ...