
资料来源:DeepTech认为,在给出答案之前,使用DeepSeek-R1模型的人在思维过程中并不奇怪。这也是高度尊重包括DeepSeek-R1在内的大型推理模型(LRM,伟大的推断模型)的原因之一。但是,由六个苹果研究人员组成的团队对此进行了质疑。通过允许该模型解决几个难题,研究人员发现,思考主要的大型推理模型,DeepSeek-R1,O3-Mini和Claude-3.7-Innet,在越过一定的复杂性阈值后完全中断了精度。值得注意的是,苹果机器学习研究的高级总监Samy Bengio是该文档的合作者。他不仅是Turing Joshua Bengio奖获得者的弟弟,而且还是Google Brain团队的首批成员之一。照片|六位相关文档的作者Sammy Bengio,第二个右侧(来源:数据图像)X Apple总结了Gary Marcus曾经。他文章:“苹果在大型语言模型中'推理'的能力的最后一篇文章令人印象深刻。我解释了为什么在一篇漫长的周末文章中,我解释了为什么人们并不感到惊讶。在“加里·马库斯周末的文章”中,他写道:“这篇新的苹果文章很重要。挑战了大规模推理模型的主要假设,这表明当前的方法可能具有基本的障碍,特别是在执行精确的计算时,研究人员观察到大型推理的局限性。t错误的步骤揭示了行为的意外模式。例如,该模型可以在汉诺威塔中最多完成100个正确的操作,但在横穿医疗服务拼图的逻辑推理游戏中不能超过5个正确的动作。总的来说,研究人员认为,该文件不仅强调了现有的大规模推理模型的好处,而且还揭示了它们的局限性。调查的主要结论是:首先,研究人员质疑已建立的数学参考点的大规模推理模型评估的当前范式,并设计了一个可使用算法拼图环境控制的实验测试平台。其次,研究人员的实验表明,即使是最复杂的大规模推理模型(例如O3-Mini,DeepSeek-R1,Claude-3.7-Sonnet-Schinking)仍然无法开发出解决可概括性问题的特征。在几种环境中,如果问题的M复合度超过一定的阈值,其精度最终将降至零。第三,研究人员发现,Mlarge推理ODELOS具有与推理函数问题复杂性有关的扩展局限性。这是一个特殊的复杂点可以通过到达后思考表数的下降趋势来看到。第四,研究人员根据最终精度质疑当前的评估范例,分析表明,随着问题的复杂性的增加,与不正确的解决方案相比,正确的解决方案在推理过程中更落后。第五,研究人员揭示了实施精确计算机功率的大规模推理模型的惊人局限性,包括无法从不同类型的难题之间的明确算法和推断的不一致之处受益。大规模推理模型的自动校正能力是极限ed。生产 - 范围的范围:对推理任务专门优化了从大型语言模型中得出的新变体。这些模型是新技术的产品,它们的中心特征是独特的“思考”机制,其中包括具有自我反射特征的思考,并且在多个推理参考点上具有出色的性能。这些模型的外观说明了大型语言模型处理复杂的推理和解决问题的方式的范式转变。一些研究人员认为,这是迈向最常见的人工智能能力的重要一步。尽管这些观点和绩效的进步已经存在,但尚未完全了解大规模推理模型的基本优势和配置限制。一个没有回答的重要问题是:这些推理模型对涂抹量表有能力推断推断吗?还是你是暗示利用不同形式的模式巧合?随着问题的复杂性的增长,您的绩效将如何变化?由于相同的推理令牌可以计算预算,因此与没有“思考”机制的标准大型语言模型相比,它如何完成?最重要的是,当前推理方法的固有局限性是什么?实现更强的推理能力可能需要进行哪些改进?研究人员认为,当前评估范式的局限性导致对这些问题缺乏系统分析。现有的评估主要是建立的数学和编码参考点。这些参考点具有一定的价值,但是通常存在数据污染问题,各种情况和复杂性,并提供可控的实验条件。为了更好地理解这些模型的推论行为,研究人员认为,需要一个环境,以允许CONTROLled实验。为此,我们采用可控的拼图环境,而不是将标准参考点作为数学问题。这意味着您可以在保留核的逻辑时调整难题的元素,系统地修改复杂性并检查解决方案过程和内部推理过程。 (来源:数据图像)这些难题具有以下特征:(1)它可以对复杂性提供良好的控制。 (2)避免对现有参考点的一般污染。 (3)它仅基于明确指定的规则,并强调算法的推理能力。 (4)接受基于模拟器进行严格的评估,该模拟器允许解决方案解决方案和详细的故障分析。通过实证研究,他们发现了有关当前大规模推理模型的一些重要发现。首先,大规模推理模型可以通过增强来学习复杂的自我反思机制G,但不能在越过特定的复杂性阈值后为零性能计划和退化任务的问题解决问题的概括特征。其次,大规模推理模型研究设备与大规模标准模型之间的比较显示了三种不同的推理机制。第一个机制是,由于更简单,更简单的组合问题,最大的标准模型表现出更高的效率和精度。第二种机制是:随着问题的复杂性适度增加,大型推理模型可获得收益。第三种机制是,随着构成深度的增加,这两种模型都会经历总的性能阻碍。 (来源:数据图像)此故障模型的行为远非达到问题的复杂性,但开始减少推理投资(ME)由推理代币数量添加)。 (来源:数据图像)这表明大规模推理模型的推理能力存在基本局限性。它的推论时间随着问题的日益复杂而大大增加。此外,通过分析中间推理轨迹,我们进行了研究项目。在中等复杂性问题中,必须在找到正确的解决方案之前通过许多误差路由对模型进行广泛研究。如果复杂性阈值超过一定的复杂性阈值,则该模型根本找不到正确的解决方案。北京大学邮报和电信副教授Bai Ting告诉DeepTech,它看起来像是人类的思想。我不知道是什么对复杂问题的正确答案,但我非常了解什么问题。具体而言,这与解决方案空间的大小有关。解决方案的简单问题空间是由功能高的短逻辑链的巧合引起的。通常,正确的解决方案自然是在思想途径的正面。解决复杂问题的解决方案空间通过结合多维变量并在逻辑级别嵌套来呈指数增长。溶液的空间是巨大的,这被客观地揭示为思想序列的相对后续性。 (来源:数据图像)推理模型的“思想”中会发生什么?在这项研究中,大多数实验是使用推理模型进行的,例如十四行诗Claude 3.7(无推理/推理)和DeepSeek-R1/V3以及相应的非推理模型。与系列或OpenAI不同,研究人员选择了这些模型以允许访问思想令牌。对于拼图的每个实例,研究团队生成了25个样本,并报告了每个模型的平均产量。为了更深入地了解推理模型的思维过程,研究人员在此期间对推理的这些无序进行了详细的分析,他们通过构建实验性拼图环境的最终响应进行了详细的分析,这使他们能够对结果进行更详细的观察和分析结果的介绍和分析。具体而言,拼图模拟器用于提取和分析模型思维过程中研究的中间解决方案。接下来,这些气味被揭示出顺序位置的模式和特征,推理过程中连续位置的精度以及这些模式如何随着问题的复杂性的增加而演变。在此分析中,研究人员专注于十四行诗C产生的推论痕迹Laude 3.7拼图组实验中的推理模型。对于在痕量中确定的每个中间解决方案,Inv团队构成记录以下内容:(1)其在推理轨迹中的相对位置(按总思想长度进行了归一化),(2)通过研究设备的拼图模拟器和(3)相应问题的复杂性证实的校正。这使研究团队可以在整个推理过程中解释解决方案形成的进度和精度。图|在所有拼图环境中“思想”中中间解决方案的精度与问题的复杂性(来源:数据图像)之间的关系之间的关系。研究团队发现,对于更简单的问题,他们通常在思维开始时找到了正确的解决方案,但继续探索错误的解决方案。与正确的溶液(绿色)相比,不正确的解决方案(红色)的分布在TH结束时显然移动E链。随着Probmotto的复杂性适度增加,这种趋势被逆转。第一个模型调查了错误的解决方案,然后大多数解决方案在他们的思想中提出了正确的解决方案。这次,不正确的解(红色)的分布比正确的(绿色)解决方案移动。最后,对于更复杂的问题,该模型开始阻碍。这意味着模型在思考过程中无法生成正确的解决方案。下图显示了对汉诺威塔周围思想序列段中解决方案精度(间隔)的互补分析。 (来源:数据图像)对于简单问题(小N值),解决方案的精度倾向于随着思想的进步而减少或波动,并且可以看出,可以看到更多证据表明过度思想的现象。但是,对于更复杂的问题,这种趋势会改变。解决方案的preciseón随着您的thoug而增加HTS促进直到达到一定的阈值。除了在“冲击模式”中,模型的精度为零。 Bai Ting告诉DeepTech,该模型需要针对复杂问题进行多个推断。通过花费没有决策来正确响应,模型推理机制可能会使用效率优化策略来生成多个迭代。这可能是避免过多迭代的资源保护策略。因此,该文档的发现需要对模型实现级别进行详细分析和验证。 Bai Ting说,该模型的重大推论基本上可能是对记忆模式的呼吁。对于诸如DeepSeek-R1和O3-Mini之类的模型,其性能在很大程度上取决于培训数据的培训模式。当问题的复杂性通过记忆模式覆盖阈值而破裂时(例如T设计的可控拼图环境他这次是Apple Research团队),该模型被归类为“零精度”的状态。这种拼图环境允许控制问题复杂性的受控和受控的实验,但仅代表推理任务的一小部分,并且可能不会捕获现实世界中密集推理问题的多样性或增强知识的多样性。应该注意的是,这项研究主要基于黑匣子的API访问封闭,前卫和大规模推理模型。这是一个阻止研究团队分析内部条件或建筑组件的限制。另外,当使用确定性的拼图模拟器时,研究人员提出了一个假设,即推论可以在阶段进行验证。但是,这种分析方法迁移到更广泛的推理方案,因为在非结构化域中可能难以实现这种确切的验证。总的来说,研究人员调查了大型-SCale Vanguard推断模型在问题的复杂性方面,通过可控拼图解决方案。结果揭示了当前模型的局限性。尽管具有复杂的自我反思机制,但这些模型在越过特定的复杂性阈值后仍无法发展可推广的推断能力。研究人员认为,结果可以为这些模型的推理能力铺平道路。请参阅:https://ml-site.cdn-apple.com/papers/the-lus-of-thinking.pdf操作/类型:它是大提琴