微比恩 > 信息聚合 > 3 秒复制任何人的嗓音，微软音频版 DALL・E 细思极恐，连环境背景音也能模仿

3 秒复制任何人的嗓音，微软音频版 DALL・E 细思极恐，连环境背景音也能模仿

2023-01-12 21:15:03来源: IT之家

3 秒复制任何人的嗓音，微软音频版 DALL・E 细思极恐，连环境背景音也能模仿

图片地址：https://img.ithome.com/newsuploadfiles/2023/1/9a5be792-7967-4511-8095-148f65d758dc.png?x-bce-process=image/format,f_auto

只需 3 秒钟，一个根本没听过你说话的 AI，就能完美模仿出你的声音。是不是细思极恐？这是微软最新 AI 成果 —— 语音合成模型 VALL·E，只需 3 秒语音，就能随意复制任何人的声音。它脱胎于 DALL・E，但专攻音频领域，语音合成效果在网上放出后火了：有网友表示，要是将 VALL・E 和 ChatGPT 结合起来，效果简直爆炸：看来与 GPT-4 在 Zoom 里聊天的日子不远了。还有网友调侃，（继 AI 搞定作家、画家之后）下一个就是配音演员了。所以 VALL・E 究竟怎么做到 3 秒钟模仿“没听过”的声音？用语言模型来分析音频基于 AI“没听过”的声音合成语音，即零样本学习。语音合成趋于成熟，但之前零样本语音合成效果并不好。主流语音合成方案基本是预训练 + 微调模式，如果用到零样本场景下，会导致生成语音相似度和自然度很差。基于此，VALL・E 横空出世，相比主流语音模型提出了不太一样的思路。相比传统模型采用梅尔频谱提

关注公众号

标签：微软

提示：支持键盘“← →”键翻页

上一篇特斯拉已开始在得州建造美国第一家锂精炼厂，但马斯克却一反常态地低调

下一篇天问一号 + 火星快车，中外联合获得火星日凌研究重要成果

赞

你的鼓励是对作者的最大支持

相关阅读

微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金，英伟达提供专业知识支持2024-09-18 08:53:40
微软宣布 Xbox 游戏部裁员 650 人，占全球员工总数 3%2024-09-12 18:35:46
消息称微软 9 月 26 日东京电玩展将公布 SE 游戏《最终幻想 16》Xbox 版2024-09-08 15:26:08
9 个月实现翻番，微软 Outlook Lite 应用全球下载量破 1000 万次2024-09-06 17:02:49
微软 Office 2024 默认禁用 ActiveX， Microsoft 365 将于 2025 年 4 月开始逐步生效2024-09-06 22:26:28
微软 Windows App SDK 1.6 原生支持超前编译，应用启动时间缩短 50%2024-09-05 13:49:45
微软 Win11 Beta 22635.4145 预览版发布：优化输入、A / B 测试新版桌面聚焦2024-08-31 06:48:21
微软 Win11 Canary 27695 预览版发布：左对齐任务栏上小部件面板入口启用新位置2024-08-31 07:10:06
微软 Edge 浏览器调整“内存限制器”：滑块变下拉菜单，预设 5 种选项2024-08-30 13:36:24
蔡崇信预言成真？微软AI扩张版图背后的故事2024-08-29 19:18:33

热门排行榜

1日1周1月

免费发布分类信息

最新图片