微比恩 > 信息聚合 > 3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐,连环境背景音也能模仿

3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐,连环境背景音也能模仿

2023-01-12 21:15:03来源: IT之家

只需 3 秒钟,一个根本没听过你说话的 AI,就能完美模仿出你的声音。是不是细思极恐?这是微软最新 AI 成果 —— 语音合成模型 VALL·E,只需 3 秒语音,就能随意复制任何人的声音。它脱胎于 DALL・E,但专攻音频领域,语音合成效果在网上放出后火了:有网友表示,要是将 VALL・E 和 ChatGPT 结合起来,效果简直爆炸:看来与 GPT-4 在 Zoom 里聊天的日子不远了。还有网友调侃,(继 AI 搞定作家、画家之后)下一个就是配音演员了。所以 VALL・E 究竟怎么做到 3 秒钟模仿“没听过”的声音?用语言模型来分析音频基于 AI“没听过”的声音合成语音,即零样本学习。语音合成趋于成熟,但之前零样本语音合成效果并不好。主流语音合成方案基本是预训练 + 微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。基于此,VALL・E 横空出世,相比主流语音模型提出了不太一样的思路。相比传统模型采用梅尔频谱提

关注公众号
标签: 微软