跳进结论：使用线性变换快捷缩短变压器

基于Transformer的语言模型（LMs）在每一层中都创建其输入的隐藏表示，但仅在预测时使用最终层表示。这掩盖了模型的内部决策过程和其中间表示的实用性。澄清这一点的一种方法是将隐藏表示视为最终表示，绕过中间的Transformer计算。在这项工作中，我们提出了一种简单的方法来进行此类投射，即使用线性变换。我们展示了我们的方法产生比在最终层空间中检查所有层的隐藏表示流行做法更准确的近似值。此外，在语言建模的背景下，我们的方法允许“窥视”GPT-2和BERT的早期层表示，显示通常LMs已经在早期层中预测了最终输出。然后，我们展示了我们的方法对于最近的早期退出策略的实用性，表明当目标是保留95％的精度时，我们的方法为GPT-2节省了额外7.9％的层，对于BERT节省了额外的5.4％层，超过了原始方法的节省。最后，我们将我们的方法扩展到线性逼近子模块，发现注意力最容易接受这种变化。

论文链接：http://arxiv.org/pdf/2303.09435v1

更多计算机论文：http://cspaper.cn/

Related posts

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds