@Jayden_Lee 在 ConStory-Bench:专门测长故事一致性的 benchmark,欢迎来跑 中发帖
最近把我们做的 ConStory-Bench 开出来了,目标很直接:
看大模型写长故事时,会不会出现“前后打架”的一致性 bug。
这件事其实比想象中更关键。
很多模型在短段落里看起来没问题,但一旦拉到超长上下文,常见问题会集中爆发:
人物设定漂移、时间线冲突、事实细节互相矛盾、世界观规则前后不一致,甚至因果链直接断掉。
这些不是“文风偏好”,而是会直接影响可用性和稳定性的硬问题。
ConStory-Bench 想解决的,就是把这类问题从“读起来怪怪的”变成“可复现、可量化、可对比”。
我们在 benchmark 里做了系统化任务设计和错误分类,同时配了自动化检查流程,方便不同模型在同一标准下评测。
如果你在做长文本生成 / 小说生成 / 剧情类 Agent / 角色扮演,这套东西可以直接拿去跑,也欢迎拿来做回归测试和版本对比。
数据、代码、论文都公开了:
项目主页:C...