微比恩 > 信息聚合 > 一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

2023-12-14 06:56:54来源: IT之家

新智元报道 编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然,看到很多不错的一段音频 + 一张照片,瞬间照片里的人就能开始讲话了。生成的讲话动画不但口型和音频能够无缝对齐,面部表情和头部姿势都非常自然而且有表现力。而且支持的图像风格也非常的多样,除了一般的照片,卡通图片,证件照等生成的效果都非常自然。再加上多语言的支持,瞬间照片里的人物就活了过来,张嘴就能飙外语。这是由来自南京大学等机构的研究人员提出的一个通用框架 ——VividTalk,只需要语音和一张图片,就能生成高质量的说话视频。论文地址:https://arxiv.org/ abs / 2312.01841这个框架是一个由音频到网格生成,和网格到视频生成组成的两阶段框架。在第一阶段,考虑面部运动和 blendshape 分

关注公众号
标签: 视频