ViT 在计算机视觉领域取得了巨大的成功,甚至大有取代 CNN 之势。但是相比 CNN,训练 ViT 需要更多的数据,通常要在大型数据集 JFT-300M 或至少在 ImageNet 上进行预训练,很少有人研究少量数据训练 ViT。最近,南京大学吴建鑫团队提出了一种新方法,只需 2040 张图片即可训练 ViT。他们在 2040 张花(flowers)的图像上从头开始训练,达到了 96.7% 的准确率,表明用小数据训练 ViT 也是可行的。另外在 ViT 主干下的 7 个小型数据集上从头开始训练时,也获得了 SOTA 的结果。而且更重要的是,他们证明了,即使在小型数据集上进行预训练,ViT 也具有良好的迁移能力,甚至可以促进对大规模数据集的训练。论文内容在这篇论文中,作者提出了用于自我监督 ViT 训练的 IDMM(Instance Discrimination with Multi-crop and Cut
南京大学团队 2040 张图片训练出 ViT,准确率 96.7%,连迁移性能都令人惊讶
2022-02-02 13:12:44来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 贝宝 PayPal 第四季度营收 69 亿美元,净利润 8.01 亿美元同比下降 49%2022-02-02 11:26:02
- 微软 Surface Duo 双屏机 AT&T 定制版开始推送安卓 11 系统更新2022-02-02 12:44:02
- 苹果悄悄改善了 AirPods Pro / AirPods 3 无线耳机通话音频质量2022-02-02 13:45:17
- 全美第二的机器人项目核心数学课免费开放,院长亲自授课,作业讲义全同步2022-02-02 13:51:47
- Locus入选Gartner(R)代表性供应商2022-02-02 10:32:00
- 最受信赖化学信息资源提供者CAS发布重大生物学信息扩展2022-02-02 10:44:00
- GemForext推出新的账户类型服务2022-02-02 11:41:00
- 不屑资本的韩寒,何时变成了一个商人?2022-02-02 11:29:00
- 国家卫健委:2月1日新增确诊病例63例,其中本土病例36例2022-02-02 09:00:37
- 春节档新片总票房破20亿2022-02-02 09:10:00