yolovino (@yol1) 在给小学数学题加句废话，OpenAI o1preview 就翻车了，deepscaler:1.5b 没翻中发帖论文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」奥利弗在星期五摘了 44 个猕猴桃

yolovino (@yol1) 在给小学数学题加句废话，OpenAI o1preview 就翻车了，deepscaler:1.5b 没翻中发帖

论文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」 
奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃？ 
显然，答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定，但它们通常能够可靠地解决类似问题。 
加入一些随机的额外信息，比如：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍，但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃？ 
题目里加的这句话（其中 5 个比平均大小要小）显然不影响解题，但结果却令人大吃一惊，大模型居然被误导了。 
GPT-o1-mini...