@3721确实发现了一个真实有效测试agent做题能力的东西 中发帖

agent也就会写写代码了 多模态能力和小镇做题业力很差 
[PixPin_2026-03-18_00-14-56]
https://linux.do/t/topic/1773796
从上面这个说起
佬们可以把下面两个图放在一个新文件夹里面
然后就跟agent说 做第四题
这题实际上还考了低清图下面的ocr能力 自行分块选择 可以看到codex老师是分成十多个块..
做了十多分钟了不一定做对
https://cdn3.linux.do/optimized/4X/2/5/3/253143b9c22fa3d46f5cf8bcef9b11dc2fee682e_2_562x1000.jpeg
https://cdn3.linux.do/original/4X/b/b/d/bbd2cfd7f03293ca6e08817f0e0914d5d16c4932.jpeg