@Wolke_Wolke【更新中】Minimax M3 前端HTML测试 中发帖

Minimax M3出了,来看看M3的表现吧 
写在最前的叠甲:

模型的输出具有不稳定性,没搞pass@n,确实有不科学的成分,但是消费者会让一个模型跑多少次重复实验?
One Shot不一定能代表长程Agent能力,但是One Shot是对于长程Agent编程的试金石和canary test
评价是主观的,但是模型的作品是客观的
为什么不买token plan?而是直接用API?我买过Minimax的token plan,结果用量很少,折算的token价格用API反而更便宜

测试渠道:Openrouter AI Chatroom,选取官方Provider,思考等级为Xhigh(但是按照or的feature,不知道能不能正常传递给上游),无提示词干扰
[image]

转盘题,考察的核心是转盘的指针能否和指向的奖品对应,是一道考验模型的代码的逻辑的题目,难度中等偏上,Opus ...