二式王小美学习吧 关注:7贴子:42
  • 4回复贴,共1

随感而发-顶刊分享(1)

只看楼主收藏回复

SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

Transformer架构最初被提出用于自然语言处理(NLP)任务,并迅速成为该领域的杰出模型。随着Vision Transformer(ViT)的引入,其影响力显著扩展,展示了基于Transformer的架构在视觉任务中的有效性和多样性。这些架构与卷积神经网络(CNNs)相比,在多种视觉任务中展现出了强大的性能,使得Transformer成为深度学习中的主流架构。然而,Transformer架构的计算需求构成了一个重大挑战,主要是由于其注意力机制的二次计算复杂性和LayerNorm组件在线统计计算的必要性。
为了解决这一挑战,论文提出了包括渐进重参数化批归一化(Progressive Re-parameterized Batch Normalization)和简化线性注意力(Simplified Linear Attention)在内的新策略,以获取高效的Transformer架构。在训练过程中,逐步将LayerNorm替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用BatchNorm的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较低的情况下达到了与其他线性注意力方法可比的性能。
具体来说,渐进重参数化批归一化是一种新的BatchNorm重参数化方案,可以在训练过程中逐步将LayerNorm替换为BatchNorm,并提出一种新的BatchNorm重参数化方案来进一步提升性能。重参数化BatchNorm(Re-parameterized RepBN)可以表示为一个包含可学习参数的层,该参数以端到端的方式联合训练。一旦训练完成,RepBN就可以重新参数化为一个新的BN。
简化线性注意力机制利用ReLU作为核函数,并结合深度卷积进行局部特征增强,所提出的注意力机制比以前的线性注意力更有效,但仍然获得了相当的性能。这种简化的线性注意力机制在计算成本较低的情况下达到了与其他线性注意力方法可比的性能。
结合渐进式重参数化批归一化(Progressive Re-parameterized Batch Normalization,简称PRepBN)和简化线性注意力(Simplified Linear Attention,简称SLA)模块的SLAB Transformer,在提升计算效率的同时,相较于Flatten Transformer展现出了竞争性的准确性。例如,在ImageNet-1K数据集上,SLAB-Swin-S模型实现了83.6%的Top-1准确率,并且推理延迟降低到了16.2毫秒,相较于Flatten-Swin-S模型,准确率提升了0.1%,推理延迟减少了2.4毫秒。此外,SLAB Transformer在语言建模任务中也显示出了与Flatten Transformer相当的性能,同时实现了更低的推理延迟。这表明SLAB Transformer通过优化归一化层和注意力机制,有效地平衡了模型的计算效率和准确性。
1. 渐进式重参数化BatchNorm

在Transformer模型中,Layer Normalization(LN)作为一种常见的标准化层,由于其在训练和推理阶段都需要计算均值和方差,这限制了模型的执行速度。而Batch Normalization(BN)仅在训练阶段需要计算这些统计量,在推理阶段可以与相邻的线性层合并,从而减少标准化层对模型推理速度的影响。然而,直接将Transformer中的LN替换为BN会导致模型精度下降和训练不稳定的问题。为了解决这一挑战,研究者们提出了一种优化策略,即渐进式重参数化批标准化(Progressive Re-parameterized Batch Normalization)。
这种策略首先定义了重参数化批标准化(RepBN),其中包含一个可学习的参数η,该参数允许在特定层中跳过BN操作;当η为0时,RepBN等同于标准的BN。此外,为了增强BN在Transformer结构中的训练稳定性,研究者们引入了渐进式替换策略,即在训练过程中逐步将LN替换为RepBN,以实现从LN到BN的平滑过渡。这种方法有助于减轻训练基于BN的Transformer模型的难度,并在各种任务上实现强大的性能表现。

式中,η是一个可学习参数,当η为0时,RepBN等效为纯BN结构。其中,RepBN可以通过调节BN的权值和偏移量;同时,RepBN能重参数化为BN的表现形式,并实现与相邻线性层的融合。

RepBN输出的分布由 α + η σ 和 β + η μ 控制,分别对应于方差和均值。RepBN可以借助 σ 和 μ 来恢复分布。
同时,当 α = 0 , β = 0 时,相当于跳过了BatchNorm。当 η = 0时,RepBN则退化为纯粹的BatchNorm。


IP属地:江苏1楼2024-12-27 19:21回复


    IP属地:广东来自Android客户端2楼2024-12-27 22:54
    回复
      2025-07-30 10:07:00
      广告
      不感兴趣
      开通SVIP免广告
      没学会


      IP属地:浙江来自Android客户端3楼2024-12-27 23:23
      回复
        什么时候发个研究奶龙的论文


        IP属地:河南来自Android客户端4楼2024-12-27 23:30
        回复
          不如lwx


          IP属地:江西来自Android客户端5楼2024-12-28 10:40
          回复