IT之家 4 月 19 日消息,微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。IT之家附上参考地址New VASA-1 model by Microsoft Research As
让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频
2024-04-19 10:57:00来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等2024-09-19 14:35:09
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- 华为 WATCH GT5 智能手表开箱视频曝光:银白表圈 + 蓝色表带、家族式功能旋钮表冠2024-09-16 13:41:04
- 快手:可灵 AI 已累计生成超 2700 万个视频,正内测全新 1.5 版本基础模型2024-09-13 18:31:32
- 网易 Filmly 播放器应用计划本月推出 Apple TV 版客户端,演示视频现公开2024-09-12 15:21:20
- 微软宣布 Xbox 游戏部裁员 650 人,占全球员工总数 3%2024-09-12 18:35:46
- 华为官方 YouTube 频道发布 Mate XT Ultimate 非凡大师宣传视频,暗示全球发售2024-09-12 19:24:52
- 苹果 iPhone 16 Pro 系列支持录制 4K120 FPS 视频2024-09-10 02:39:09
- 续航最强苹果手机易主,iPhone 16 Pro Max 视频播放时长可达 33 小时2024-09-10 03:35:11
- 索尼官方泄密:YouTube 视频标题证实 PS5 Pro 今晚官宣2024-09-10 07:52:03
- 1安徽高新投先进材料投资基金登记成立 出资额3亿
- 2中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 3小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 4本月开测,微软网页版和 Win11 新版 Outlook 可固定收藏夹
- 5任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 6阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 7Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 8全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节
- 9小鹏宣布老用户芯片焕新众筹计划:单 Orin 升至双 Orin,座舱 820A 升级 8295
- 10小鹏汇天全倾转旋翼飞行汽车 X5 亮相:500km+ 续航、360km+/h 航速