
尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。
在论文中,研究人员通过一个简单的数学问题证明了这一点。
他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?
此时,LLM能够正确地计算出答案。

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。
研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。
当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。
虽然LLM在许多领域表现优异,但其推理能力仍有待改进。
苹果新论文证明LLM大模型存在缺陷:处理简单的数学问题,模型的表现会急剧下降
荣耀MagicV3双卫星版成功上线,开启安卓双卫星时代,打造通信新峰体验
微博鸿蒙客户端回应打字丢字等BUG :初步定位该问题为NEXT鸿蒙系统问题
iPhone SE 4保护壳曝光:新调制解调器有望显著降低电池消耗,特别是在低功耗模式下
iQOO 13将会首批搭载全新的OriginOS 5系统,剑指“性能流畅之王”
一加13看点汇总:BOE X2东方屏还将配有2K+120Hz 8T LTPO显示
小米集团卢伟冰换上了小米15系列,称“新手机真好用”
雷克沙SL400 2TB移动硬盘图赏:手机固态硬盘仅重13克,轻至无感
三星Galaxy Tab S10系列国行版价格公布:支持120Hz高刷,搭载联发科天玑9300+旗舰处理器



