微比恩 > 信息聚合 > 南京大学团队 2040 张图片训练出 ViT,准确率 96.7%,连迁移性能都令人惊讶

南京大学团队 2040 张图片训练出 ViT,准确率 96.7%,连迁移性能都令人惊讶

2022-02-02 13:12:44来源: IT之家

ViT 在计算机视觉领域取得了巨大的成功,甚至大有取代 CNN 之势。但是相比 CNN,训练 ViT 需要更多的数据,通常要在大型数据集 JFT-300M 或至少在 ImageNet 上进行预训练,很少有人研究少量数据训练 ViT。最近,南京大学吴建鑫团队提出了一种新方法,只需 2040 张图片即可训练 ViT。他们在 2040 张花(flowers)的图像上从头开始训练,达到了 96.7% 的准确率,表明用小数据训练 ViT 也是可行的。另外在 ViT 主干下的 7 个小型数据集上从头开始训练时,也获得了 SOTA 的结果。而且更重要的是,他们证明了,即使在小型数据集上进行预训练,ViT 也具有良好的迁移能力,甚至可以促进对大规模数据集的训练。论文内容在这篇论文中,作者提出了用于自我监督 ViT 训练的 IDMM(Instance Discrimination with Multi-crop and Cut

关注公众号