@Jayden_Lee 在 ConStory-Bench：专门测长故事一致性的 benchmark，欢迎来跑中发帖最近把我们做的 ConStory-Bench 开出来了，目标很直接：看大模型写长故事时，会不会出现“前后打架”的一致性 bug

@Jayden_Lee 在 ConStory-Bench：专门测长故事一致性的 benchmark，欢迎来跑中发帖

最近把我们做的 ConStory-Bench 开出来了，目标很直接： 
看大模型写长故事时，会不会出现“前后打架”的一致性 bug。 
这件事其实比想象中更关键。 
很多模型在短段落里看起来没问题，但一旦拉到超长上下文，常见问题会集中爆发： 
人物设定漂移、时间线冲突、事实细节互相矛盾、世界观规则前后不一致，甚至因果链直接断掉。 
这些不是“文风偏好”，而是会直接影响可用性和稳定性的硬问题。 
ConStory-Bench 想解决的，就是把这类问题从“读起来怪怪的”变成“可复现、可量化、可对比”。 
我们在 benchmark 里做了系统化任务设计和错误分类，同时配了自动化检查流程，方便不同模型在同一标准下评测。 
如果你在做长文本生成 / 小说生成 / 剧情类 Agent / 角色扮演，这套东西可以直接拿去跑，也欢迎拿来做回归测试和版本对比。 
数据、代码、论文都公开了： 

项目主页：C...