IT之家 3 月 19 日消息,谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然
谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
2024-03-19 10:14:54来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 扎克・施奈德电影《月球叛军 2:烙印之人》预告片公布,4 月 19 日上线 Netflix2024-03-19 10:22:21
- 戴尔全新 XPS 13 / 16 笔记本国内上市:酷睿 Ultra 处理器,12999 元起2024-03-19 10:29:15
- 11 个月倒计时:消息称《GTA6》2025 年 2 月 18 日发售,R 星下月发布新游戏预告2024-03-19 10:30:13
- 荣耀赵明称即将发布 Flip 小折叠手机2024-03-19 10:30:56
- Win10 / Win11 第三方新脚本上线:保留数据情况下灵活切换 SKU2024-03-19 10:37:40
- vivo TWS 4 耳机预热:行业首创陶瓷钨原声振膜,55dB 降噪 + 45h 续航2024-03-19 10:44:59
- 微星大神 RTX 4070 Ti SUPER 16G EXPERT 显卡上架:双 120mm 风扇,7099 元2024-03-19 10:47:09
- 每天 5 秒抽一次:天猫无门槛红包倒数发 3 天,面额至高 8888 元2024-03-18 17:26:34
- 米哈游《原神》私服、盗版手办等刑事判决公布,一被告获刑超四年2024-03-19 10:47:13
- 三星 Galaxy M35 5G 手机跑分曝光:Exynos 1380 芯片 + 6GB 内存2024-03-19 10:48:50
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5亚马逊将向意大利数据中心业务投资13亿美元
- 6人民币兑美元中间价报7.1433,调升226个基点
- 7创业板指涨超2%,沪指涨近1%
- 8小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 9多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 10安徽高新投先进材料投资基金登记成立 出资额3亿