谷歌发布最新看图说话模型：可实现零样本学习，多类型任务也能直接上手-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2021/10/17b54316-626a-4b5b-be13-95c12a49ad72.jpg

谷歌新推出了弱监督看图说话模型 SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。从文字描述图像到回答图片相关问题，模型无需微调也能样样精通。对于一般的视觉语言预训练（VLP）模型，训练数据集中要求包含大量精准标签。而模型的任务迁移，则需要针对特定任务重新进行数据集的标签标注。总结下来，就是标注数据集不仅耗时耗力，还不能多任务通用。能不能开发出一种又简单又万能的 VLP 模型呢？谷歌新开发的这款模型使用了弱监督学习进行模型训练，通过利用大量的弱对齐图像-文本对进行建模，简化了 VLP 的训练流程，大大降低了训练的复杂性。SimVLM 使用前缀语言建模的单一目标进行端到端训练，并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用，从而能够更好地实现零样本学习泛化效果。SimVLM 模型是如何实现的？SimVLM 模型的预训练过程采用了前缀语言建模 (PrefixLM) 的单一目标，接受序列的前