初春饰利 (@Uiharu_Kazari) 在 L站第一届多模态模型测试大赛【确定不进来鉴模吗?】中发帖事情是这样的——我重温某部「纯爱甜系治愈漫画」（大嘘）时突然发现：下面这两张图分明是为今天的多模态模型量身打造的“高难度趣味挑战 ”！它们“甜到发腻”，又“暗流汹涌”，究竟能否难倒号称“无所不能”的多模态 AI？现在，测试大赛正式开幕！一、到底难在哪？（挑战点速览）咱们的目标是深入挖掘AI在理解复杂图文时的“真本事”

初春饰利 (@Uiharu_Kazari) 在 L站第一届多模态模型测试大赛【确定不进来鉴模吗?】中发帖

事情是这样的——我重温某部「纯爱甜系治愈漫画」（大嘘）时突然发现：下面这两张图分明是为今天的多模态模型量身打造的“高难度趣味挑战 ”！它们“甜到发腻”，又“暗流汹涌”，究竟能否难倒号称“无所不能”的多模态 AI？ 
现在，测试大赛正式开幕！ 
一、到底难在哪？（挑战点速览） 
咱们的目标是深入挖掘AI在理解复杂图文时的“真本事”。简化来说，挑战主要围绕以下三大维度，每一点都暗藏玄机： 


视觉信息处理的复杂性与深度： 

繁体字迷阵 (OCR)：图片里全是繁体字，模型得先认出来，再考虑怎么转成简体，这对字符集和精度都是考验。
花式排版解析：横排竖排混搭，文字还和插图“纠缠不清”，模型能不能看懂这“迷魂阵”般的版面？
“读空气”能力 (图像语义)：表情、姿态、背景元素……这些细节里的情感和故事线索，AI能捕捉到多少？



语义理解的挑战与知识库依赖： 

解读“重力感” (情感倾向)：台...