只需 3 秒钟,一个根本没听过你说话的 AI,就能完美模仿出你的声音。是不是细思极恐?这是微软最新 AI 成果 —— 语音合成模型 VALL·E,只需 3 秒语音,就能随意复制任何人的声音。它脱胎于 DALL・E,但专攻音频领域,语音合成效果在网上放出后火了:有网友表示,要是将 VALL・E 和 ChatGPT 结合起来,效果简直爆炸:看来与 GPT-4 在 Zoom 里聊天的日子不远了。还有网友调侃,(继 AI 搞定作家、画家之后)下一个就是配音演员了。所以 VALL・E 究竟怎么做到 3 秒钟模仿“没听过”的声音?用语言模型来分析音频基于 AI“没听过”的声音合成语音,即零样本学习。语音合成趋于成熟,但之前零样本语音合成效果并不好。主流语音合成方案基本是预训练 + 微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。基于此,VALL・E 横空出世,相比主流语音模型提出了不太一样的思路。相比传统模型采用梅尔频谱提
3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐,连环境背景音也能模仿
2023-01-12 21:15:03来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- 微软宣布 Xbox 游戏部裁员 650 人,占全球员工总数 3%2024-09-12 18:35:46
- 消息称微软 9 月 26 日东京电玩展将公布 SE 游戏《最终幻想 16》Xbox 版2024-09-08 15:26:08
- 9 个月实现翻番,微软 Outlook Lite 应用全球下载量破 1000 万次2024-09-06 17:02:49
- 微软 Office 2024 默认禁用 ActiveX, Microsoft 365 将于 2025 年 4 月开始逐步生效2024-09-06 22:26:28
- 微软 Windows App SDK 1.6 原生支持超前编译,应用启动时间缩短 50%2024-09-05 13:49:45
- 微软 Win11 Beta 22635.4145 预览版发布:优化输入、A / B 测试新版桌面聚焦2024-08-31 06:48:21
- 微软 Win11 Canary 27695 预览版发布:左对齐任务栏上小部件面板入口启用新位置2024-08-31 07:10:06
- 微软 Edge 浏览器调整“内存限制器”:滑块变下拉菜单,预设 5 种选项2024-08-30 13:36:24
- 蔡崇信预言成真?微软AI扩张版图背后的故事2024-08-29 19:18:33