Anan (@milynn) 在 自己vibe的研究内容小应用测试Minimax。opus评价M3不如M2.7。 中发帖
**叠甲:**不评价minimax现在额度这块的消息,最终肯定会有个定论。🙄
个人看法:跟之前一样minimax并不是很值得付费,仅能够当做龙虾玩具跑一些目标和流程比较具体小功能。
**裁判:**claude-opus-4.8 max
这次测试用的流程:
[image]
同一个问题使用
[image]
首先耗时上,M3很慢。当然有可能是M3还没有highspeed模型。
[image]
然后是claude评判的结果。直接上对比总结表。
[image]
1. M3反直觉:最新的 M3 综合表现最差。 AI味重(57 分,两项高危),一个真实生成缺陷------第三章整章丢失、留了一句翻译模型的报错。。。而且耗时是高速档的 2.2 倍。
文章开头的现状判断:四条主线的证据与边界是三篇里单段推理质量最高的。明确把已验证结论和概念验证/预测分开。思考时间这么久这点优势...