初春饰利 (@Uiharu_Kazari)L站第一届多模态模型测试大赛【确定不进来鉴模吗?】 中发帖

事情是这样的——我重温某部「纯爱甜系治愈漫画」(大嘘)时突然发现:下面这两张图分明是为今天的多模态模型量身打造的“高难度趣味挑战 ”!它们“甜到发腻”,又“暗流汹涌”,究竟能否难倒号称“无所不能”的多模态 AI? 
现在,测试大赛正式开幕!
一、到底难在哪?(挑战点速览)
咱们的目标是深入挖掘AI在理解复杂图文时的“真本事”。简化来说,挑战主要围绕以下三大维度,每一点都暗藏玄机:


视觉信息处理的复杂性与深度:

繁体字迷阵 (OCR):图片里全是繁体字,模型得先认出来,再考虑怎么转成简体,这对字符集和精度都是考验。
花式排版解析:横排竖排混搭,文字还和插图“纠缠不清”,模型能不能看懂这“迷魂阵”般的版面?
“读空气”能力 (图像语义):表情、姿态、背景元素……这些细节里的情感和故事线索,AI能捕捉到多少?



语义理解的挑战与知识库依赖:

解读“重力感” (情感倾向):台...