苹果再轰AI推理能力,GitHub大佬怒怼:这不是推理能力的真实面貌!

作者
2025-06-10
4次阅读
人工智能
文章详情

最近,苹果公司发布论文,指出当前大语言模型(LLM)在推理方面有重大缺陷。GitHub高级软件工程师Sean Goedecke对此提出强烈反对,认为结论过于片面。苹果论文采用汉诺塔测试,发现模型在解决简单谜题时表现好,但面对复杂任务时往往选择放弃推理。例如,处理十盘汉诺塔时,模型会找“捷径”而非列出每一步,最终未能得出正确答案。这表明模型可能是意识到问题复杂而放弃。Goedecke质疑汉诺塔并非测试推理的最佳例子,认为模型旨在处理推理任务而非数千次重复步骤。他认为用汉诺塔测试不公平。苹果研究揭示了LLM在推理方面的一些局限,但这不意味着模型完全没有推理能力,挑战在于如何更好地设计和评估它们。