参数量下降85%，性能全面超越ViT：全新图像分类方法ViR

机器之心Pro

优质科技领域创作者 2022.01.0717:07

关注

ViT 还不够完美？来自华东师范大学等机构的研究者提出了全新的图像分类方法 ViR，在模型和计算复杂性方面都优于 ViT。

近一年来，视觉 Transformer(ViT)在图像任务上大放光芒，比如在图像分类、实例分割、目标检测分析和跟踪等任务上显示出了卓越的性能，展现出取代卷积神经网络的潜力。

但仍有证据表明，在大规模数据集上应用多个 Transformer 层进行预训练时，ViT 往往存在以下两个方面的问题：

一是计算量大，内存负担大；

二是在小规模数据集上从零开始训练时存在过拟合问题。

具体而言，对大规模数据集进行预训练和对下游任务进行调整对于虚拟信息处理来说是必不可少的，这往往会导致计算量过大和冗余，并且会增加额外的参数，从而增加内存负担。此外，具有多个 Transformer 编码层的 ViT 经常出现过拟合，特别是当训练数据有限的情况下。

为了解决这些问题，来自华东师范大学等机构的研究者们提出了一种新的图像分类方法，即 Vision Reservoir (ViR) 。通过将每个图像分割成一系列具有固定长度的 token，ViR 构建一个具有几乎完全连接拓扑的纯库，以替换 ViT 中的 Transformer 模块。为了提高网络性能，研究者还提出了两种深度 ViR 模型。

图 4：深度 ViR 的结构。上部为串行储备池，下部为并行储备池。

实验

研究者在 MNIST、 CIFAR10 和 CIFAR100 三个经典数据集上，对所提出的 ViR 模型和常用的 ViT 模型进行了对比。同时也对模型中的参数进行了比较，分析了模型的收敛速度和内存占用情况。此外还在 CIFAR10-C 上进行了鲁棒性测试。在实验中，原始的 ViT 命名为 ViT-base ，并做了一些更改，如下表 1 所示。

表 1: ViR 和 ViT 的系统参数。N 是一个储层中的神经元数，α 是 w 的谱半径的标度参数，SD 是输入矩阵 v 的稀疏度，ri，rj，rk 和 jump size 在论文的第 3.1 小节中有详细说明。在 ViT 这一行中，对于所有测试的数据集，patch size 是相同的。

在没有任何预训练的情况下，研究者通过在 MNIST、 CIFAR10 和 CIFAR100 上执行图像分类任务，将 ViR1、 ViR-3、 ViR-6 和 ViR-12 与 ViT-1、 ViT-3、ViT-6 和 ViT-12 进行比较。下表 3 显示了分类的准确性和参数量的对比。

表 3：ViR 模型和 ViT 模型在各个图像分类数据集上的比较。数字后缀表示 ViT 的 ViR 层或编码器的数量。「m」是百万级的单位符号表示。

图 6：MNIST 和 CIFAR100 数据集在 4 × 4、14 × 14 和 16 × 16patch size 下的内存占用比较。

对于模型鲁棒性，研究者从两个方面进行了评估：即输入图像的损失和系统超参数的干扰。

表 4: 输入图像对于鲁棒性的影响。

更多细节详见论文原文。