@Jayden_Lee 在大模型写万字就失忆？ConStory-Bench 开源中发帖这段时间我们把 ConStory-Bench 整理开源了，目标很直接：专门测大模型写长故事时的一致性问题

@Jayden_Lee 在大模型写万字就失忆？ConStory-Bench 开源中发帖

这段时间我们把 ConStory-Bench 整理开源了，目标很直接： 
专门测大模型写长故事时的 一致性问题。 
很多模型短文本看着都挺好，一拉长就容易翻车： 
人设漂移、时间线冲突、事实细节互相打架、世界观前后不一致。 
这类问题不是文风偏好，而是实打实影响可用性的 稳定性问题。 
我们不只看“能写多长”，更看“写长以后还能不能自洽”。 
目前基准覆盖 2,000 条 prompts、4 类长叙事任务； 
配套 ConStory-Checker，按 5 大类 19 个细分错误做检测，并提供 CED / GRR 指标，方便横向对比模型。 
如果你在做长文本生成 / 小说工具 / 剧情 Agent / 角色扮演，这套可以直接拿去跑。 
数据、代码、论文都公开了： 

项目主页：ConStory-Bench | LLM Story Consistency Benchmark
Paper：[2...