实际上,理解模型不需要“思考”吗?伯克利发现有时跳过思维过程更快,更准确

当诸如DeepSeek-R1和OpenAI O1之类的大型愿望仍然通过增加推理的计算量来提高性能时,加利福尼亚大学,伯克利大学和艾伦人工智能研究所突然突然投掷了一个深水泵:停止现在的旋转,不需要清晰的思维,所需的清晰思维,而良好的模型可以使您能够实现和准确的思维。这项研究认为,思维的明确过程会显着增加令牌和延迟的使用,从而导致推理无法推理。例如,在控制延迟条件时,NotHink的影响要比思考要好得多。这项研究提供的意外结论引起了很多关注。例如,亚马逊研究多模式LLM的博士后加布里埃尔·伯顿(Gabriele Berton)结束了:不思考的方式本质上是模型的强制性输出:“思考:好的,我认为我已经完成了思考。”这是怎么回事?让我们查看原始文本:纸张标题:推理模型可以有效,而无需考虑纸质地址:https://arxiv.org/pdf/2504.09858与思考相比,没有思考更好地权衡准确性和预算之间的关系。大多数现代理解模型(例如R1和R1-Distill-Qwen)的思维和非思想遵循其生成过程中类似的结构:思维框中的推理过程标志着| begind_of_thinking |和| end_of_thinking |,然后是最终答案。基于此结构,将两种方法(思维和毫无意义)定义为如下。 ANG PAG - 思考是指核对识别模型以生成以下输出的默认方法:识别过程,最终解决方案和对思维框的最终答案(图1(蓝色))。 NotHinking是指一种直接开发最终解决方案并通过信号回答推理的明确过程的方法。这可以通过F实现在处理过程中滚动空心框(图1(橙色)),如下所示。 | begind_of_thinking | ?好吧,我想我最终想着。? | end_of_thinking |为了控制两种方法中令牌的使用,当模型达到令牌预算时,它被迫生成“最终答案”,以确保立即获得最终答案。如果达到令牌限制时模型在思维框中,| end_of_thinking |在最终答案标签之前附加。实验设置实验使用DeepSeek-R1-Distill-Qwen-32b作为主要模型。这是DeepSeek-R1的蒸馏版,它是通过使用QWEN-32B和DeepSeek-R1生成的数据训练创建的。根据该报告,它是使用连续的测试时间扩展名的最先进的概念模型之一,可与较大的DeepSeek R1-Distill-lllama-70B相当。还提供了一系列具有挑战性的推理基准,包括数学竞赛,鳕鱼等活动ING,奥林匹克竞争问题和定理证明。同样,使用多样本精度(PASS@k)作为指示器,它可以测量k个示例是从每个问题生成的n个完整响应中随机选择的可能性,并且至少有一个theSe的输出之一。它是正式定义的,其中n是每个问题的输出样本数量,而C是正确输出的数量。对于定理证明数据集(minif2f和viractnet),k = {1,2,4,8,16,32}??按标准为标准;对于较小的数据集(2024年美国数学邀请赛,2025年美国数学邀请赛,2023年美国数学竞赛),k = {1,2,4,4,8,16,32,64};对于较大的数据集(奥林匹克基准,实时编码基准),k = {1、2、4、8、16}。对于正式定理基准测试,“多样本精度(通过@32)是标准指标,而对于数学和编程的基准,最常用的是“单样本准确性(Pass@1)”(即准确性)。实验结果比较了思想,而不是在不控制令牌预算的情况下连接和教学QWEN。首先,首先,首先,在minif2f和验证网络中,NotHinking的性能与所有K值的思考(都明显好于QWEN-INSTRUCTION)。考虑到Nothink使用的代币比思考要少的3.3-3.7倍,这一结果尤其令人惊讶。在其他数据集中,结果更为复杂。在K = 1中,Nothink落后于思维背后,但是随着K的升高,差距逐渐变窄。在所有数据集中,NotHinking的性能都可以与何时最大的思考相提并论,但是令牌的使用比思考少2.0-5.1倍。在AIME24,AIME25和LiveCodeBenchwen -Instruktura中,思维和NOTHINKS明显好于Q。但是,在AMC23和奥林匹亚山脉中,Qwen-Instruct也通过思想和非智能缩小了差距。在Ktoken预算控制下进行思维和不思考的比较。除了minif2f和验证网络外,NotHinking还执行SLI比起对其他数据集的思考要差,但其令牌消耗明显降低。因此,我们将继续通过强迫预算在类似的标记预算下比较两者的绩效。如图5所示,NOTHINK方法通常比控制令牌的使用时要比思考的方式更好。特别是在低预算设置(例如,使用了大约3000个令牌)中,不考虑所有K值的思维方式总是更好的结果,并且随着K值的增加,性能间隔将扩大。当使用令牌很高(例如,大约3500个令牌)时,思维方式会散发出印地语以单样本准确性(通过@1)来思考的方式,但是从k = 2开始,无知的方式很快就会发出思维方法。图6通过绘制令牌对水平轴的使用,进一步描述了这些结果,同时比较单个精度样本(通过@1)和多样本精度(通过@k)达到最大可用k值。就多样本准确性(通过@k)而言,不思考的方式总是会在整个预算中散发出一种思维方式。对于单样本的准确性(通过@1),NotHink方法在低预算方面的表现更好,并且在高预算方面更糟。实时基准编码是一个例外,即使在Lowbudget上,以哪种思维方式散发出一种不思考的方式(通过@1)。这可能是因为禁用思考模块并不能显着减少对实时编码基准测试的代币的使用。为了降低数据污染的风险,该实验还包括新发布的AIME 2025,这不太可能出现在现有模型的预训练数据中。从本质上讲,在新的基准和现有基准测试中都获得了相同的结果,这表明研究中观察到的趋势不是模型记忆产品,而是反映了模型行为的一般性能。增加团队方法的同时性能方法,随着K的价值的增加,团队研究了非思考方法的潜在原因,他们专注于差异不同的答案。它是通过计算每个问题的分布答案的熵来衡量的。具体而言,对于答案的分布的问题,熵的定义为:其中p_i是第三个独特答案的经验可能性。然后,使用所有问题的熵的含义和共同偏差记录差异。较高的熵表示较大的一般差异 - 较高的差异,而较低的标准偏差意味着越来越多的问题差异。这些研究基于思维方法与不思考图5的方式之间的比较,但不包括缺乏确切答案的实时编码基准。从表1可以看出,任何一个模型都没有一致性平均差异。在某些情况下,NotHink模式使得较高的平均熵。在其他情况下,思维模式具有较高的平均熵。但是,NotHinking模式总是显示出较低的差异 - 在不同的问题中不同,表明NotHink模式产生的答案具有更相等的差异示例。研究人员认为,随着K的价值的增加,NotHink模式执行多样本准确性(Pass@k)的原因可能是越来越多的变化,尽管多样性根本无法完全解释性能差异。 NOTHINK过程使在测试阶段的并行计算更好。规模和成功的成功成功补充可以使低度可以使很多事情变得多大 - 如果按应用接口呼叫或本地模型服务。这可以通过在单个GPU中的多个GPU设置或批处理处理来实现,该GPU与以下序列相比提供了更高的GPU使用。一般延迟取决于单个的最长生成时间。提供了实验,即“ NotHink”程序可以为低预算条件产生更准确的解决方案,并且随着K值的增加,它在多样本的准确性中有效(Pass@k)。这证明,当NotHink过程与简单的“最佳N”方法结合使用时,不使用并行抽样思考的方法可以显着提高准确性。它以可比的延迟发出其他方法,例如使用预算和平行的思考方法。而且,尽管它产生了较低的延迟,但即使在一系列样本的情况下,它也超过了整个思维方式(即,不采用强大的样本准确性(通过@1)预算思维方法的表现)。结果图7显示了一个样本准确性(通过@1)的思维方式和不考虑所有基准测试的方式。单个抽样响应的性能称为单一精确在无平行的情况下,ACY样本(通过@1),而选择多个样本后的精度“从n中选择最佳”被认为是单个样本精度(通过@1),而在并行的情况下。对于没有验证者的任务,在图中使用了基于置信的结果,并且在表2中提供了所选实验的消融实验的结果。这些表可以比较上面讨论的“从n方法中选择最佳”方法。基于置信度的选择方法通常比大多数投票方法更好。使用并行缩放时,多样本精度(通过@k)也被报道为单样本精度的上限(通过@1)。 NOTHINK技术与量表的平行相结合,为传统序列序列方法提供了一个很好的替代方法,该方法可通过显着降低潜伏期和代币的使用来激活相似和更好的准确性。如图7中的前两个数字所示,NotHink方法已实现了比较E或更高的思维方式表现,同时延迟较低。在没有并行的情况下,NotHink过程类似于Tuntunnin精度的思考方式,而延迟只是后者的一小部分。如果有一个完美的验证器,则从k采样响应中选择最好的响应可以实现@k precision。当与并行缩放结合使用时,非思考程序可与不采用强制性预算且不进行平行缩放的思维方法的准确性相媲美(这是代表性的缩放基线),同时减少了原始第七部分的延迟。此外,在Minif2F和验证数据集中,NotHink方法使用的输出令牌数量已减少了三个季度,但具有相同的精度,具有计算效率。这些结果强调了可用验证器的并行抽样的有效性。当Pamnothi时NK与平行量表和基于置信的选择技术结合使用,它总是在大多数基准测试中以低标记预算的方式增加思维方式。图7(最后五个数字)在许多基准中显示了基于置信度的选择方法的结果,将思维方式比较了思维方式的执行方式。有两个因素要关注低预算情况:(1)这符合我们对良好推理的主要研究兴趣; 。正如预期的那样,并行缩放提高了单样本精度(通过@1)思维方式和不思考方式的表现。但是,在所有数学基准上,Nothink方法总是导致帕累托的最佳边界。从与平行缩放的思考方式方面,非思考方法在准确性和预算之间取决了更好的权衡。在AMC 2023和OlympiaDbench基准中,即使平行的SCA,NotHink过程也总是会发出一种思考方式Ling是否使用。值得注意的是,尽管与完整的思维方法(没有强制性预算的思维方法相比),但这种非思考方法也达到了更高的单样本准确性(通过@1)标记(55.79,而54.1相比为54.1),同时将延迟减少到九个。 NotHink方法与LiveCodebench的作用差,该基准似乎是一个例外。这可能是因为基于置信的选择方法具有任务编码限制,并且如果没有比赛的确切输出,就无法应用投票策略。在ITO的情况下,我们只能以最高的信心选择第二好的选择,这是不太可靠的。如表2所示,与基于投票的技术相比,该方法的性能不佳(通常是很大的空间),在该技术中可以应用投票技术。通常,这些结果具有与并行抽样合并时Nothink方法的有效性,并且使用强大的方法可以使用UT验证器。随着K的价值的增加,在多样本准确性中NotHink方法的令人惊讶的性能(Pass@K)仍然可以由并行缩放率使用,从而提高了相同且显着的下潜伏期(可以将其降低到一九)的单样本准确度(Pass@1)的结果。对于完美验证器的固定的活动,此方法还可以将令牌的总使用量减少到四分之三,同时达到相似或更高的精度。总结,大型语言模型可以在开发解决方案之前产生长期的思维过程,该方法在理解任务中取得了良好的成果。这项研究质疑了这一过程的需求,因此引入了非-a -a -a -a -a -a -a -a -cons的方法。这是一种简单有效的及时方法,超出了明确的思维。实验表明,同一模型可以在思维方式上执行可比性,甚至比方式更好没有长时间思考链的思考,随着K值随通行证@K的增加而增加,同时使用较少的令牌。对于可比的令牌预算,Nothinking的时尚总是会给大多数K带来传统的思维结果。此外,研究还发现,NotHink方法可以与“从选择方法中选择最佳”相结合,以比标准思维方法在准确性和潜伏期方面取得更好的结果。研究人员说:“我们希望这项研究能够激励人们审查对长期思考过程的需求,同时为实现低预算和低潜伏期的竞争性参考。”
请尊重我们的辛苦付出,未经允许,请不要转载PG电子麻将胡了_PG电子娱乐的文章!

下一篇:没有了