揭秘Local Vision Transformer: 稀疏连接,权重共享,动态权重
发表于 2021-06-17 13:26
单位:微软亚洲研究院 (MSRA),南开大学,北京大学
论文:https://arxiv.org/pdf/2106.04263.pdf
来源:Smarter
这篇文章首次从网络结构正则化:稀疏连接,权重共享,以及动态权重三个方面对local ViT进行了分析,同时与深度分离卷积对比,从不同角度明确阐述了其网络设计规则,并对近期热门的MLP, VIT, 以及传统的CNN网络结构设计之间的关系进行了对比,分析了其联系。实验结果表明在现有的网络结构设计中,引入更多的正则化手段将减少训练的难度,带来更好的性能。而简单的深度可分离卷积和local ViT在相同的网络结构和训练策略下,在ImageNet分类, 目标检测,语义分割领域表现相当。这引发我们对不同的正则化方式带来的效果,以及下一步的网络结构设计进行深思。
01
摘要
ViT在视觉领域频繁取得SOTA结果,引入了局部操作的Local ViT在ViT的基础上进一步提升了性能。其中核心的local attention是一种通道上彼此独立,空间局部连接的操作,我们用网络正则化中的稀疏连接,权重共享,以及动态权重来探讨local attention. 稀疏连接是指通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。权重共享是说local attention在每一个空间位置的局部连接权重,在不同通道之间进行共享,或者在不同的组之间共享。动态权重:局部连接的权重,根据每个样本的特征动态地产生。local attention与深度分离卷积或动态卷积相比,在稀疏连接上拥有一样的正则化,其主要区别在于权重共享中,深度分离卷积或动态卷积是不同通道之间不共享权重,而在不同空间位置上共享权重。我们观察到深度分离卷积极其动态版本,能够在相同的结构和训练策略下与Local Vit (以Swin Transformer为例)在分类, 目标检测,语义分割领域表现相当,同时计算量更小。这些观察表明Local ViT实际上是通过稀疏连接,权重共享,动态权重三个方面来增加模型的表征能力。
- 网络结构正则化与权重共享
文章的主要阐述角度为两个网络结构正则化的方法,即稀疏连接和权重共享,以及共享权重这三个方面。稀疏连接是指一些输出变量和一些输入变量直接没有相互连接。它有效的减少了模型的复杂度而不减少输入输出变量个数。权重共享意味着有一些连接的权重是相同且共享的,它降低了模型的参数量,同时不需要增加训练数据即可增强模型的优化效果。动态权重是指根据不同样本的特征,动态地产生连接权重。它能够增加模型的容量。如果把连接权重看作是隐层变量,这种动态权重可以看作是增加模型的容量的二阶操作。
- Local attention与深度分离卷积
Local attention的稀疏连接是指通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。其权重共享是说local attention在每一个空间位置的局部连接权重,在不同通道之间进行共享,或者在不同的组之间共享。Local attention使用动态权重,局部连接的权重,根据每个样本的特征动态地产生。深度分离卷积与其相比,拥有相同的稀疏连接模式,通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。权重共享与Local attention不同,深度分离卷积在不同通道之间不共享连接权重,而在不同的空间位置上共享连接权重。深度分离卷积使用静态的权重作为模型的可学习参数,同时也可以利用动态卷积的方法,根据不同样本特征动态的生成权重。这里只给出了简单描述,详细内容参见论文原文及附录描述。该图呈现了不同结构或操作的稀疏连接方式(1D空间示例):(a)为朴素的卷积的连接方式,一个输出点与局部空间位置的所有通道相互连接;(b)为global attention和空间mixing MLP,一个输出点与相同通道的所有空间位置相互连接;(c)local attention和深度分离卷积,一个输出点与相同通道的局部空间位置有相互连接;(d)point-wise MLP和1x1卷积,一个输出点与同空间位置的所有通道之间互相互连接;(e)全连接MLP
- 关系图
我们展示了不同的正则化方式之间的关系图,分析了卷据,深度分离卷积,ViT,Local ViT, MLP,分离的MLP (如MLP-Mixer, ResMLP等)在稀疏连接,权重共享和动态权重之间的联系。这里只给出了简单描述,详细内容参见论文原文及附录描述。如图所示,我们同样引入了低秩正则化来分析卷积及ViT的变种,及潜在的低秩MLP变种结构。图中ViT和Local ViT指其结构中的attention结构,PVT为低秩形式下的金字塔结构Transformer,Dim. Sep.表示通道维度上稀疏化,Locality Sep.表示空间位置连接稀疏化,LR表示低秩,MS Conv.表示多尺度卷积。关系图中,从上到下呈现了依次增强的正则化方式或者引入动态权重,随着正则化及动态权重的增加,网络的人为先验结构也随之增加,这种形式带来了优化上的好处,使得网络更容易训练得到更好的结果,现有实验结果也同样验证了此项结论。这里只给出了简单描述,详细内容以及关系图的规范化描述,参见论文原文及附录描述。
02
实验结果
在ImageNet1K上,不同正则化方式的代表方法对比,DW-Conv.和D-DW-Conv表示深度分离卷积极其动态卷积的形式替换Local ViT(Swin Transformer)的结构,并保持相同的训练策略,相应的T和B对应Tiny和Base模型。深度可分离卷积在拥有相同稀疏连接及不同的权重共享情况下,和Local ViT表现相当,且有更小的计算量和参数量,同时在小模型下,动态的深度分离卷积具有更好的表现效果。在COCO目标检测与分割和ADE20K语义分割上,以Cascade Mask-RCNN和UPerNet为检测和分割结构,两种方法的结果如下:这些实验结果与观察表明Local ViT实际上是通过稀疏连接,权重共享,动态权重三个方面来增加模型的表征能力。深度分离卷积在相同的结构与训练策略下能够达到表现相当的结果,引发我们对不同的正则化方式带来的效果,以及下一步的网络结构设计进行深思。
— 版权声明 —
本账号原创内容版权属深话AI所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除。
评论 (0人参与)
最新评论