微比恩 > 信息聚合 > 可让照片人物“开口说话”,阿里巴巴研究团队推出 AI 框架“EMO”

可让照片人物“开口说话”,阿里巴巴研究团队推出 AI 框架“EMO”

2024-03-01 18:16:01来源: IT之家

IT之家 3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。IT之家注意到,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub查看项目。▲ 图源 研究人员发布的 DEMO 片段据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音

关注公众号
标签: 阿里 阿里巴巴