TRG模型能力对比有感 中发帖

今天看到了帖子: 
claude到底有多强!来看看我生成的效果 - 搞七捻三 - LINUX DO
感谢两位大佬的 prompt
总结:利用 SVG 生成对应图片十分考验模型的能力,并且具有实用价值。但目前多数模型表现一塌糊涂。。。能用的不多。类似的能力:mermaid 生成倒是还行,但也常常出错。
许多问题很简单,但是给人一种十分明显的感觉,其并不会思考,唉,能力不足,就需要prompt弥补。。。
分析:
1,这一测试很轻松测到了模型的上限,尤其是
记忆力(大量prompt,并且prompt对输出结果有很大影响(十分不稳定))
分析能力
输出稳定性
2,目前就claude,o1 preview 输出结果还不错,但是存在地理位置生成错误等严重问题,
gemini 各版本效果一言难尽(exp 1121的svg内容很不错,但是生成位置很糟糕),exp 和 gtp 4o输出差...