a3memberskcores测试o3和o4-mini-high 代码能力还不如R1 中发帖

[_1_karminski_来自小红书网页版] 
特别是o3非常拉跨 有没有大佬实际测试下业务代码能力