微比恩 > 信息聚合 > 谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

2024-03-19 10:14:54来源: IT之家

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

图片地址：https://img.ithome.com/newsuploadfiles/2024/3/6bac04a7-8b16-4c44-92ed-00a92f97be15.jpg?x-bce-process=image/format,f_auto

IT之家 3 月 19 日消息，谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。研究人员表示：“和此前的多模态相比，VLOGGER 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步，之后 AI 就可以通过语音、手势和眼神交流以自然

关注公众号

提示：支持键盘“← →”键翻页

上一篇黑鲨将推出刀锋 2 移动电源：5000mAh 容量，支持磁吸

下一篇小米 Civi 4 Pro 手机配备 14 Ultra 同款后盖“科纳皮”材质，采用“同档罕见金属中框”

赞

你的鼓励是对作者的最大支持

相关阅读

扎克・施奈德电影《月球叛军 2：烙印之人》预告片公布，4 月 19 日上线 Netflix2024-03-19 10:22:21
戴尔全新 XPS 13 / 16 笔记本国内上市：酷睿 Ultra 处理器，12999 元起2024-03-19 10:29:15
11 个月倒计时：消息称《GTA6》2025 年 2 月 18 日发售，R 星下月发布新游戏预告2024-03-19 10:30:13
荣耀赵明称即将发布 Flip 小折叠手机2024-03-19 10:30:56
Win10 / Win11 第三方新脚本上线：保留数据情况下灵活切换 SKU2024-03-19 10:37:40
vivo TWS 4 耳机预热：行业首创陶瓷钨原声振膜，55dB 降噪 + 45h 续航2024-03-19 10:44:59
微星大神 RTX 4070 Ti SUPER 16G EXPERT 显卡上架：双 120mm 风扇，7099 元2024-03-19 10:47:09
每天 5 秒抽一次：天猫无门槛红包倒数发 3 天，面额至高 8888 元2024-03-18 17:26:34
米哈游《原神》私服、盗版手办等刑事判决公布，一被告获刑超四年2024-03-19 10:47:13
三星 Galaxy M35 5G 手机跑分曝光：Exynos 1380 芯片 + 6GB 内存2024-03-19 10:48:50

热门排行榜

1日1周1月

免费发布分类信息

最新图片