@Jayden_Lee 在 大模型写万字就失忆?ConStory-Bench 开源 中发帖
这段时间我们把 ConStory-Bench 整理开源了,目标很直接:
专门测大模型写长故事时的 一致性问题。
很多模型短文本看着都挺好,一拉长就容易翻车:
人设漂移、时间线冲突、事实细节互相打架、世界观前后不一致。
这类问题不是文风偏好,而是实打实影响可用性的 稳定性问题。
我们不只看“能写多长”,更看“写长以后还能不能自洽”。
目前基准覆盖 2,000 条 prompts、4 类长叙事任务;
配套 ConStory-Checker,按 5 大类 19 个细分错误做检测,并提供 CED / GRR 指标,方便横向对比模型。
如果你在做长文本生成 / 小说工具 / 剧情 Agent / 角色扮演,这套可以直接拿去跑。
数据、代码、论文都公开了:
项目主页:ConStory-Bench | LLM Story Consistency Benchmark
Paper:[2...