@Wolke_Wolke 在【更新中】Minimax M3 前端HTML测试中发帖Minimax M3出了，来看看M3的表现吧写在最前的叠甲：模型的输出具有不稳定性，没搞pass@n，确实有不科学的成分，但是消费者会让一个模型跑多少次重复实验？One Shot不一定能代表长程Agent能力，但是One Shot是对于长程Agent编程的试金石和canary test评价是主观的，但是模型的作品是客观的为什么不买token plan？而是直接用API？我买过Minimax的token plan，结果用量很少，折算的token价格用API反而更便宜测试渠道：Openrouter AI Chatroom，选取官方Provider，思考等级为Xhigh（但是按照or的feature，不知道能不能正常传递给上游），无提示词干扰 [image] 转盘题，考察的核心是转盘的指针能否和指向的奖品对应，是一道考验模型的代码的逻辑的题目，难度中等偏上，Opus ...

@Wolke_Wolke 在【更新中】Minimax M3 前端HTML测试中发帖

Minimax M3出了，来看看M3的表现吧 
写在最前的叠甲： 

模型的输出具有不稳定性，没搞pass@n，确实有不科学的成分，但是消费者会让一个模型跑多少次重复实验？
One Shot不一定能代表长程Agent能力，但是One Shot是对于长程Agent编程的试金石和canary test
评价是主观的，但是模型的作品是客观的
为什么不买token plan？而是直接用API？我买过Minimax的token plan，结果用量很少，折算的token价格用API反而更便宜

测试渠道：Openrouter AI Chatroom，选取官方Provider，思考等级为Xhigh（但是按照or的feature，不知道能不能正常传递给上游），无提示词干扰 
 [image] 

转盘题，考察的核心是转盘的指针能否和指向的奖品对应，是一道考验模型的代码的逻辑的题目，难度中等偏上，Opus ...