微比恩 > 信息聚合 > 谷歌发布最新看图说话模型:可实现零样本学习,多类型任务也能直接上手

谷歌发布最新看图说话模型:可实现零样本学习,多类型任务也能直接上手

2021-10-24 15:53:54来源: IT之家

谷歌新推出了弱监督看图说话模型 SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。能不能开发出一种又简单又万能的 VLP 模型呢?谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了 VLP 的训练流程,大大降低了训练的复杂性。SimVLM 使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。SimVLM 模型是如何实现的?SimVLM 模型的预训练过程采用了前缀语言建模 (PrefixLM) 的单一目标,接受序列的前

关注公众号
标签: 谷歌