oelove 在 【避坑求助】AI给娃读绘本,横屏变“编剧”,竖屏才听话?求完美阅读方案! 中发帖
【测试背景】
昨晚带娃时发现了一个有趣的现象。因为手头有事,想让手机里的豆包开视频给孩子读绘本。本以为是个“偷懒神器”,结果却演变成了一场AI的“创作大赛”。
【翻车实录】
我发现豆包完全不按书本原文朗读,而是看着图片开始“自由发挥”。虽然编得比原著还精彩,但孩子不乐意了,说AI读得跟书上不一样。我尝试多次下达指令,要求“严格按照原文一字不落朗读”,但豆包依然我行我素。随后我横向测试了 ChatGPT 、Gemini 和 Grok ,发现视频流朗读的效果都不尽如人意。
【惊人发现:横屏 vs 竖屏】
在反复折腾中,我发现了一个诡异的细节:
横屏拍摄(使用支架):AI 极其容易“幻觉”,不读原文,专注编故事。
竖屏拍摄:表现瞬间好转,基本能识别文字并按原文朗读。
不知道这是模型视觉逻辑的设计缺陷,还是其他技术原因?
【现有瓶颈】
即便切换到竖屏,依然存在两个痛点:
1....