苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

时间： 2024-10-14 03:50

快科技10月13日消息，近日，苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文，揭示了大型语言模型（LLM）在数学推理方面的显著局限性。

尽管这些模型在生成人类水平的文本方面表现出色，但当处理简单的数学问题时，即使问题仅进行了微小的改动，如添加无关信息，模型的表现也会急剧下降。

在论文中，研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题：奥利弗在周五挑选了 44 个猕猴桃，然后他在周六挑选 58 个猕猴桃，周日，他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃？

此时，LLM能够正确地计算出答案。

但是，一旦问题中加入了无关的细节，如“其中5个奇异果比平均小”，模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改，发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

这一发现表明，LLM并未真正理解数学问题，而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时，这些模型往往无法产生合理的结果，这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异，但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：文祥

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

推荐阅读

苹果发布新一代操作系统，macOS Tahoe 26成英特尔芯片最后支持版本

在6月10日凌晨1点开始的2025年度全球开发者大会上，苹果公司正式发布了其硬件产品线的新一代操作系统，并对命名方式进行了调整。与以往不同，新系统版本跳过了19至25的数字序列，直接命名为iOS 26、iPadOS 26、macOS Tah[全文]

2025-06-10 23:04
小象超市进军沙特生鲜出海集体奔赴下一个战场

美团出海版图正在进一步扩张。美团前置仓业务“小象超市”已经在中东地区沙特利雅得AI Yasmin和Granada两个区测试上线，2025年会陆续完成利雅得其他区域覆盖。在沙特，“小象超市”品牌命名为Keemart，入口设置在美团外卖业务Ke[全文]

2025-06-10 23:41
Cloudera发布2025年科技趋势预测

中国北京，2024年12月24日——近日，Cloudera发布2025年五大科技趋势预测，揭示了在未来一年生成式AI和AI Agent等创新技术的发展趋势。其中包括生成式AI的应用将趋向务实，AI Agent将在商业决策中发挥重要作用。同时[全文]

2024-12-25 04:09
RTX 5090与5080差价曝光：整机配置下相差1200欧元

近日，德国零售商已开始上架搭载英伟达下一代显卡的宏碁掠夺者Orion 7000系列游戏主机，并首次曝光了RTX 5090和RTX 5080显卡的配置信息和价格差异。根据零售商的商品列表，宏碁掠夺者Orion 7000（型号P07-660）搭[全文]

2024-12-21 04:01

信息排行

欢迎光临环球时报网！

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理