谷歌新推出了弱监督看图说话模型 SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。能不能开发出一种又简单又万能的 VLP 模型呢?谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了 VLP 的训练流程,大大降低了训练的复杂性。SimVLM 使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。SimVLM 模型是如何实现的?SimVLM 模型的预训练过程采用了前缀语言建模 (PrefixLM) 的单一目标,接受序列的前
谷歌发布最新看图说话模型:可实现零样本学习,多类型任务也能直接上手
2021-10-24 15:53:54来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 谷歌 Pixel 设备迎来 Android 15 QPR2 Beta 1 更新2024-11-13 15:50:09
- 谷歌 Pixel 9 Pro Fold 内屏更换费用惊人,能买一部苹果 iPhone 16 Pro Max2024-11-12 21:19:57
- 谷歌开源诺奖化学模型 Alphafold3,推动 AI 变革生物领域2024-11-12 08:50:23
- 谷歌扩展 Quick Share 文件分享功能至运行 Win11 的 Arm 设备2024-11-12 11:15:47
- 消息称谷歌云中国一号位李孔源将离职,微软前高管沈斌有望接任2024-11-11 08:43:47
- 谷歌将为苹果 iPhone 推出独立的 Gemini App,支持 AI 语音聊天2024-11-11 09:52:10
- 谷歌安卓 15 首次实现真正意义上的可变刷新率:减少功耗、告别卡顿2024-11-09 15:16:06
- 谷歌正更新 Jetpack CameraX 库,支持更多第三方相机应用拍摄 RAW 照片2024-11-09 15:23:09
- 2020 年来首次:谷歌地图扩展导航车辆定制,新增 5 种车型、8 种颜色2024-11-09 15:36:12
- 消息称谷歌 Play 应用商店即将登陆 VR 平台,三星头显有望率先搭载2024-11-09 19:02:12
- 1GGA电竞学院携手延世大学培养游戏行业人才
- 2全球顶级足球俱乐部齐聚卡塔尔沙漠之星参加卡塔尔精英学院第10届全球峰会
- 3点亮你的四季生活 解锁中国大陆地区8家四季酒店会籍专属礼遇
- 4宜鼎专为边缘服务器应用推出E1.S固态硬盘
- 5SGS携手京东养车共推机油鉴真服务
- 6AI如何赋能可持续发展?IBM 最新调研揭秘现状:企业投资热情不减,但行动尚未跟上
- 72024年度「邵逸夫奖」颁奖典礼 庆祝科研成就二十一载
- 8玩家多年要求下,《魔兽世界》下一个资料片 12.0 版本将迎来家宅系统
- 9微软庆祝 Windows 预览体验计划 10 周年,纪念壁纸开放下载
- 10从意外发现到效率革命:亚马逊云科技大规模应用自动推理提升系统效率