微比恩 > 信息聚合 > 英特尔用 ViT 做密集预测效果超越卷积:性能提高 28%,在线可玩

英特尔用 ViT 做密集预测效果超越卷积:性能提高 28%,在线可玩

2021-10-04 14:28:26来源: IT之家

用全卷积网络做密集预测 (dense prediction),优点很多。但现在,你可以试试 Vision Transformer 了 ——英特尔最近用它搞了一个密集预测模型,结果是相比全卷积,该模型在单目深度估计应用任务上,性能提高了 28%。其中,它的结果更具细粒度和全局一致性。在语义分割任务上,该模型更是在 ADE20K 数据集上以 49.02% 的 mIoU 创造了新的 SOTA。这次,Transformer 又在 CV 界秀了一波操作。沿用编码-解码结构此模型名叫 DPT,也就是 dense prediction transformer 的简称。总的来说,DPT 沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的基础计算构建块用了 transformer。它通过利用 ViT 为主干,将 ViT 提供的词包(bag-of-words)重新组合成不同分辨率的图像特征表示,然后使用卷积解码器将该表示逐步组合

关注公众号
标签: 英特尔