## 苹果研究人员质疑 AI 的推理能力
> 例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”
上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。
ummmm,有意思,应该说这个结果对于大语言模型来说是符合预期的。报道中提供了原论文的链接,不复杂也不长可以读一读。
(我:这只说明AI还天真,没有学会被bully。它天真的以为输入信息都是有意义的,不是噪声。既然你提到了这个,这个就应该是有意义的,我回答的时候就该考虑这一点。所以啊, 问AI就要言简意赅,别整这种有的没的,浪费AI时间,也浪费你自己的时间。) #网摘 #webto
> 例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”
上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。
ummmm,有意思,应该说这个结果对于大语言模型来说是符合预期的。报道中提供了原论文的链接,不复杂也不长可以读一读。
(我:这只说明AI还天真,没有学会被bully。它天真的以为输入信息都是有意义的,不是噪声。既然你提到了这个,这个就应该是有意义的,我回答的时候就该考虑这一点。所以啊, 问AI就要言简意赅,别整这种有的没的,浪费AI时间,也浪费你自己的时间。) #网摘 #webto