开云体育或 b) 永久将潜在念念维填充到恒定长度-开云官网切尔西赞助商 (中国)官方网站 登录入口
发布日期:2025-05-31 05:34 点击次数:135
机器之心报说念
机器之机杼剪部
一个相配简便的更始,就能提高 LLM 推理才智。
在知道科学领域,对于谈话是用于念念考照旧用于相通的辩白一直抓续。
跟着 LLM 和 CoT 的兴起,谈话照旧成为机器推理的默许序论 —— 但它竟然是最好行径吗?
一般而言,LLM 被戒指在谈话空间(language space)内进行推理,并通过念念维链(CoT)来抒发推理过程,从而措置复杂的推理问题。
关联词,谈话空间可能并不老是最适应推理的。举例,好多单词 token 主要用于文本连贯性,而不是推理自己,而一些关节 token 则需要复杂的磋磨,这种相反给 LLM 带来广博的挑战。
为了探索 LLM 在不受戒指潜在空间中的推理后劲,而非使用天然谈话,来自 Meta、加州大学圣地亚哥分校的研究者提倡了一种新的范式 ——Coconut(一语气念念维链,Chain of Continuous Thought),来探索 LLM 在潜在空间中的推理。

论文地址:https://arxiv.org/pdf/2412.06769论文标题:Training Large Language Models to Reason in a Continuous Latent Space
Coconut 波及对传统 CoT 过程的简便修改:Coconut 不再通过谈话模子头(language model head)和镶嵌层将荫藏现象与谈话 token 进行映射,而是径直将终末的荫藏现象(即一语气念念维)看成下一个 token 的输入镶嵌(如图 1 所示)。
这种修改将推理从谈话空间中自如出来,况兼由于一语气念念维是澈底可微的,因此不错通过梯度下跌对系统进行端到端优化。为了增强潜在推理的视察,本文收受了多阶段视察计谋,该计谋灵验地期骗谈话推理链来教导视察过程。
这种范式带来了高效的推理模式,与基于谈话的推理不同,Coconut 中的一语气念念维不错同期编码多个潜鄙人一步,从而竣事肖似于 BFS(breadth-first search)的推理过程。尽管模子在运转阶段可能作念出不正确的有规划,但它不错在一语气念念维中保抓许多可能的选项,并通过推理徐徐捣毁伪善旅途,这一过程由一些隐含的价值函数指引。这种高等的推理机制卓越了传统的 CoT,即使模子并莫得显式地接管视察或指令以这种样貌操作。
实践标明,Coconut 得胜增强了 LLM 的推理才智。对于数学推理(GSM8k),使用一语气念念维被讲明成心于提高推理准确率,这与谈话推理链的遵循相似。通过链接更多一语气念念维,不错推广和措置日益具有挑战性的问题。
在逻辑推理方面,包括 ProntoQA 和本文新提倡的 ProsQA,这需要更强的磋磨才智,Coconut 偏激一些变体致使卓越了基于谈话的 CoT 行径,同期在推理过程中生成的 token 赫然更少。
这项研究在 X 上的研究量相配高,其中单东说念主转发的浏览量就高达 20 多万。

一语气念念维链:Coconut
行径详尽。在 Coconut 行径中,LLM 在谈话模式和潜在模式之间切换(图 1):
在谈话模式下,该模子看成尺度谈话模子运行,自追念生成下一个 token。在潜在模式下,它径直期骗终末一个荫藏现象看成下一个输入镶嵌。这个终末的荫藏现象代表面前的推理现象,称为一语气念念维。
特殊 token < bot >、< eot > 分别用于标记潜在念念维模式的起初和收尾。

视察。本文专注于问题 - 措置开发,其中模子吸收问题看成输入,并通过推理过程生成谜底。作家期骗谈话 CoT 数据来监督一语气念念维。如图 2 所示,在运转阶段,模子在老例 CoT 实例上进行视察。在后续阶段,即第 k 阶段,CoT 中的前 k 个推理要领被替换为 k × c 个一语气念念维,其中 c 是一个超参数,用于戒指替换单个谈话推理要领的潜在念念维的数目。

推理过程。Coconut 的推理过程肖似于尺度的谈话模子解码过程,不同之处在于,在潜在模式下,本文径直将终末一个荫藏现象看成下一个输入镶嵌。这么作念面对的挑战是细则何时在潜在模式停战话模式之间切换。当专注于问题 - 措置开发时,本文会在问题 token 后立即插入一个 < bot >token。对于 < eot >,作家琢磨两种潜在计谋:a) 在潜在念念维上视察二元分类器,使模子概况自主决定何时隔断潜在推理,或 b) 永久将潜在念念维填充到恒定长度。本文发现这两种行径遵循齐十分好。除非另有确认,本文在实践中使用第二种选项以简化操作。
实践
研究团队通过三个数据集考据了大谈话模子在一语气潜空间中进行推理的可行性。实践主要评估模子生成谜底的准确性和推理遵循。
实践波及两类主要任务:数学推理和逻辑推理。数学推理使用 GSM8k 数据集。逻辑推理则收受了两个数据集:5-hop ProntoQA 与该团队自行开发的 ProsQA。
ProntoQA 给出一个层级分类的常识结构,条目模子判断不同类别之间的隶属关系是否正确。而 ProsQA 中是更具挑战性的推理任务,包含许多就地生成的有向无环图,条目模子进行大批磋磨和搜索。
实践开发
在实践开发方面,研究收受预视察的 GPT-2 模子,学习率为 1×10^−4,批量大小为 128。
对于数学推理任务,每个推理要领使用 2 个潜在念念维向量示意,悉数这个词视察过程分为 4 个渐进式阶段。
在逻辑推理任务中,每步使用 1 个潜在念念维向量,视察分为 7 个渐进式阶段,徐徐加多难度。悉数实践均在尺度视察经由后陆续视察至第 50 轮,并通过在考据集上评估准确率来聘请性能最好的模子查验点用于最终测试。
基线行径和万般版块的 Coconut
为了全面评估行径遵循,研究团队开发了以下基线行径进行对比:
1. 传统的 CoT:使用完好的念念维链进行视察,让模子生成每一步的推理过程
2. No-CoT:模子径直生成最终谜底,不条目中间推理要领
3. iCoT:收受渐进式计谋,徐徐移除推理链中的要领
4. Pause token:在问题和谜底之间插入特殊的暂停 token
同期,他们还评估了 Coconut 的三个变体版块:
1. 无课程学习版块:跳过渐进视察,径直收受最终阶段的视察样貌
2. 无念念维版块:移除一语气念念维示意,仅保留分阶段视察机制
3. 念念维替换版块:用特殊 token 替代一语气念念维的示意样貌
终结与研究
表 1 展示了所格外据集的全体终结。一语气念念维灵验增强了大谈话模子的推理才智,这从其比拟无 CoT 基线的一致性提高不错看出。在 ProntoQA 和 ProsQA 上,其泄漏致使越过了 CoT。
研究团队从实践中得出了以下几个关节论断:
一语气念念维的「链式」组合增强了推理才智。
在传统 CoT 中,输出 token 会看成下一步的输入,这被既有的研究讲明不错加多模子的灵验深度和抒发才智。
该团队进一步探索了这一特点是否也适用于潜空间推理,因为这意味着这种行径不错通过链接多个潜在念念维来措置更复杂的问题。
在 GSM8k 数据集的实践中,Coconut 的泄漏优于其他收受肖似计谋视察的架构,止境是越过了最新的 iCoT 基线,也显赫优于雷同能加多计较才智的 Coconut(pause as thought)变体。
天然此前的研究照旧讲明特殊的 token 不错措置高度并行化的问题,该研究团队的终结显现 Coconut 架构在一般问题上更灵验,比如数学应用题这种后续要领高度依赖前序要领的问题。
此外,当颐养戒指每个谈话推理要领对应潜在念念维数目的参数 c 时(见图 3),跟着 c 从 0 加多到 1 再到 2,模子性能稳步提高。这标明肖似 CoT 的链式效应在潜空间中也存在。

潜在空间推理在磋磨密集型任务中优于谈话推理。复杂推理时常条目模子「前瞻」并评估每一步的合感性。在研究团队的数据集会,GSM8k 和 ProntoQA 由于问题结构直不雅且分支有限,相对容易预测下一步。比拟之下,ProsQA 的就地生成 DAG 结构显赫挑战了模子的磋磨才智。
如表 1 所示,CoT 比拟 No-CoT 并无赫然纠正。关联词,Coconut 偏激变体和 iCoT 在 ProsQA 上大幅提高了推理才智,标明潜空间推理在需要大批磋磨的任务中具有赫然上风。
模子仍需教导来学习潜在空间推理
梦想情况下,模子应该能通纷扰答数据的梯度下跌自动学习最灵验的一语气念念维(即无课程学习版块的 Coconut)。关联词,实践终结显现这种视察样貌的泄漏并不优于 no-CoT。将视察剖释按照规划离别为多阶段课程,Coconut 在万般任务中齐取得了最好性能。
一语气念念维是推理的高效示意
天然一语气念念维领先并不是为了逶迤成具体的谈话翰墨而联想的,但该团队发现它不错用来直不雅地解释推理过程。
图 4 展示了一个由 Coconut(c=1)措置的数学应用题案例研究。第一个一语气念念维不错解码为「180」、「180」(带空格)和「9」等 token。这个问题的推理过程应该是 3×3×60=9×60=540,或 3×3×60=3×180=540。
这适值对应了解题过程中的第一步中间计较终结(3×3×60 不错先算出 9 或 180)。更弥留的是,一语气念念维概况同期包含多种不同的解题念念路,这种特点使它在需要复杂磋磨的推理任务中泄漏出色。

知晓 Coconut 中的潜在推理机制
接下来,作家使用 Coconut 的一个变体对潜在推理过程进行了分析。
模子:Coconut 允许通过在推理时分手动开发 < eot > 的位置来戒指潜在念念维的数目。当将就 Coconut 使用 k 个一语气念念维时,该模子瞻望将从第 k + 1 步起初,用谈话输出剩余的推理链。实践收受 k∈{0,1,2,3,4,5,6} 在 ProsQA 上测试 Coconut 的变体。
图 5 展示了在 ProsQA 上对不同推理行径的对比分析。跟着更多的推理在一语气念念维中进行(k 值加多),最终谜底的准确率(图 5 左)以及正确推理过程的比例(图 5 右中的 Correct Label 和 Correct Path)齐得到了提高。此外,幻觉(Hallucination)和伪善规划(Wrong Target)的发生率也下跌。这也标明,当更多的推剪发生在潜在空间中时,模子的磋磨才智得到了提高。

图 6 为一个案例研究,其中 CoT 产生了幻觉,Coconut(k = 1)导致伪善的规划,但 Coconut(k = 2)得胜措置了问题。在此示例中,模子无法准确细则在早期要领中聘请哪条边。然而,由于潜在推理不错幸免在前期作念出禁绝的聘请,因此模子不错在后续要领中徐徐舍弃不正确的选项,并在推理收尾时竣事更高的准确率。

潜在搜索树的解释
由于一语气念念维不错编码多个潜在的下一步,潜在推理不错被解释为一个搜索树,而不单是是推理「链」。以图 6 为例,第一步不错聘请 Alex 的任一子节点:{lempus, sterpus, zhorpus, grimpus}。

图 7 左侧展示了悉数可能的分支。雷同,第二步的前沿节点是 Alex 的孙节点(图 7 右侧)。

与尺度广度优先搜索不同,模子展现出优先探索有但愿的节点同期剪枝不酌量节点的才智。通过分析模子在谈话空间的后续输出,研究团队发现了模子的偏好。举例,当模子在一个潜在念念维后切换回谈话空间(k=1),它会以结构化局势预测下一步。通过查验概率分散,研究团队得到了根节点 Alex 的子节点的数值(图 7 左)。雷同,当 k=2 时,也得到了悉数前沿节点的预测概率(图 7 右)。
图 8 展示了模子如安在潜在念念维空间中进行推理。在第一个潜在念念维阶段,模子会同期琢磨多个可能的推理标的,保抓念念维的万般性。到了第二个潜在念念维阶段,模子会徐徐收缩范围,将认真力集会在最可能正确的推理旅途上。这种从发散到不休的推理过程,体现了模子在潜在空间中的推理才智。
为什么潜在空间更适应磋磨?
在这一节中,研究团队探讨了潜在推理在磋磨中的上风。举例,图 6 中的「sterpus」是叶节点,无法通向规划节点「bompus」,容易被识别为伪善选项。比拟之下,其他节点有更多后续的节点需要探索,推理难度更大。
研究团队通过测量节点在树中的高度(到叶节点的最短距离)来量化探索后劲。他们发现高度较低的节点更容易评估,因为探索后劲有限。在图 6 中,模子对高度为 2 的「grimpus」和「lempus」节点泄漏出更大的不细则性。
为了更严格地考据这个假定,研究团队分析了测试集会第一步和第二步潜在推理过程中模子预测概率与节点高度之间的酌量性。图 9 揭示了一个规则:当节点高度较低时,模子会为伪善节点分派较低值,为正确节点分派较高值。

关联词,跟着节点高度加多,这种区分变得不那么赫然,标明评估难度增大。总之,这些发现杰出了期骗潜在空间进行磋磨的上风。模子通过蔓延作念出有规划,并在潜在推理过程中连接探索,最终将搜索推向树的结尾现象,从而更容易区分出正确和伪善的节点。
更多研究细节,请参阅原文。
https://arxiv.org/pdf/2412.06769