苹果再轰AI推理能力，GitHub大佬怒怼：这不是推理能力的真实面貌！

作者

2025-06-10

15次阅读

人工智能

最近，苹果公司发布论文，指出当前大语言模型（LLM）在推理方面有重大缺陷。GitHub高级软件工程师Sean Goedecke对此提出强烈反对，认为结论过于片面。苹果论文采用汉诺塔测试，发现模型在解决简单谜题时表现好，但面对复杂任务时往往选择放弃推理。例如，处理十盘汉诺塔时，模型会找“捷径”而非列出每一步，最终未能得出正确答案。这表明模型可能是意识到问题复杂而放弃。Goedecke质疑汉诺塔并非测试推理的最佳例子，认为模型旨在处理推理任务而非数千次重复步骤。他认为用汉诺塔测试不公平。苹果研究揭示了LLM在推理方面的一些局限，但这不意味着模型完全没有推理能力，挑战在于如何更好地设计和评估它们。