Meta对于Transformer架构入手了：新留意力机制更懂推理-Fabian Sharp网

作者展现，对于懂推这种全新留意力机制（Sytem 2 Attention）概况你也需要呢。构入

大型语言模子（LLM）很强已经是手新一个不争的事实，但它们无意依然简略犯一些重大的留意力机理过错，展现出较弱的制更推理能耐。

举个例子，对于懂推LLM 可能会因不相关的构入高下文概况输入揭示中固有的偏好或者意见做侵蚀误的分说。后一种情景展现出的手新下场被叫做「讨好讨好」，即模子与输入坚持不同。留意力机理

有无措施来缓解这种下场呢？有些学者试图经由削减更多把守磨炼数据或者经由强化学习策略来处置，制更但这些无奈从根基上处置下场。对于懂推

克日 Meta 钻研者在论文《System 2 Attention (is 构入something you might need too)》中以为，根基下场在于 Transformer 自己固有的手新构建方式，特意是留意力机理其留意力机制。也便是制更说，软留意力既倾向于将多少率调配给大部份高下文（搜罗不相关的部份），也倾向于偏激关注一再的 token 。

因此，钻研者提出了一种残缺差距的留意力机制措施，即经由将 LLM 用作一个做作语言推理器来实施留意力。详细来说，他们运用 LLM 凭证指令的能耐，揭示它们天心理应留意的高下文，从而使它们只搜罗不会扭曲自己推理的相关质料。钻研者将这一历程称为 System 2 Attention（S2A），他们将底层 transformer 及其留意力机制视为相似于人类 System 1 推理的自动操作。

当人们需要特意关注一项使命而且 System 1 可能侵蚀时，System 2 就会调配难题的脑力行动，并接管人类的使命。因此，这一子零星与钻研者提出的 S2A 具备相似目的，后者愿望经由格外的推理引擎使命来减轻上述 transformer 软留意力的失败。

论文地址：https://arxiv.org/pdf/2311.11829.pdf

钻研者详细形貌了 S2A 机制的种别、提出该机制的念头以及多少个详细实现。在试验阶段，他们证实与基于尺度留意力的 LLM 比照，S2A 可能发生更讲事实、更少顽强己见或者讨好讨好的 LLM。

特意是在下场中搜罗干扰性意见的更正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 比照，S2A 将事实性从 62.8% 后退到 80.3%；在搜罗干扰性输着迷色的长格式参数天生使命重，S2A 的主不雅性后退了 57.4% ，而且根基上不受插入意见的影响。此外对于 GSM-IC 中带有与主题不相关语句的数学运用题，S2A 将精确率从 51.7% 后退到了 61.3% 。

这项钻研患上到了 Yann LeCun 的推选。

System 2 Attention

下图 1 揭示了一个伪相关示例。当高下文搜罗不相关的句子时，纵然是最强盛的 LLM 也会修正对于重大事实下场的谜底，从而由于高下文中泛起的 token 分心间削减了过错谜底的 token 多少率。

因此咱们需要探究一种依赖更深入清晰的更深图远虑的留意力机制。为了与更底层的留意力机制分说开来，钻研者将提出的零星称为 S2A。他们探究了运用 LLM 自己来构建这样一种留意力机制的措施，特意是运用指令调解 LLM 经由移除了不相关的文原本重写高下文。

经由这种方式，LLM 可能在输入照应以前对于要关注的输入部份做出深图远虑的推理抉择。运用指令调解的 LLM 尚有另一个短处，即可能操作留意力焦点，这有点相似于人类操作自己留意力的方式。

S2A 搜罗两个历程：

给定高下文 x，S2A 首先重更天生高下文 x '，从而删除了会对于输入发生倒霉影响的高下文的不相关部份。本文将其展现为 x ′ ∼ S2A (x) 。
给定 x ′ ，而后运用重更天生的高下文而不是原始高下文天生 LLM 的最终照应：y ∼ LLM (x ′ )。

替换实现以及变体

本文思考了 S2A 措施的多少种变体。

无高下文以及下场分说。在图 2 的实现中，本文抉择重更天生份解为两部份（高下文以及下场）的高下文。图 12 给出了该揭示变体。

保存原始高下文在 S2A 中，在重更天生高下文之后，理当搜罗所有理当留意的需要元素，而后模子仅在重更天生的高下文上妨碍照应，原始高下文被扔掉。图 14 给出了该揭示变体。

指令式揭示。图 2 中给出的 S2A 揭示鼓舞从高下文中删除了顽强己见的文本，并运用步骤 2（图 13）中的剖析要求照应不顽强己见。

夸张相关性与不相关性。以上 S2A 的实现都夸张重更天生高下文之后退主不雅性并削减讨好讨好。可是，本文以为尚有其余需要夸张的点，好比，人们可能夸张相关性与不相关性。图 15 中的揭示变体给出了这种措施的一个实例：

试验

本文在三种配置下妨碍了试验：事实问答、长论点天生以及对于数学运用题的处置。此外，本文还运用 LLaMA-2-70B-chat 作为根基模子，在两种配置下妨碍评估：

基线：数据会集提供的输入揭示被奉送到模子，并以零样本方式回覆。模子天生可能会受到输入中提供的虚伪相关性的影响。
Oracle Prompt：不附加意见或者不相关句子的揭示被输入到模子中，并以零样本的方式回覆。

图 5 (左) 揭示了在事实问答上的评估服从。System 2 Attention 比原本的输入揭示有了很大的改善，精确率抵达 80.3%—— 挨近 Oracle Prompt 功能。

图 6（左）展现了长论点天生的总体服从，基线、Oracle Prompt 以及 System 2 Attention 都被评估为可能提供相似的高品质评估。图 6（右）为细分成果：

图 7 展现了差距措施在 GSM-IC 使命上的服从。与 Shi 等人的钻研服从不同，本文发现基线精确率远低于 oracle。当不相关的句子与下场属于统一主题时，这种影响致使更大，如图 7（右）所示。

清晰更多内容，请参考原论文。