微比恩 > 信息聚合 > Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

2023-06-19 16:24:05来源: 36氪

作者 | 周愚 编辑 | 邓咏仪美国时间6月16日,Meta正式发布语音生成模型Voicebox。据官网介绍,通过非自回归“流匹配”(Flow Matching)技术,研究人员无需手动标记不同数据,即可利用长达5万小时的语言和有声书文本训练Voicebox。Voicebox生成语音的速度,可到达目前最先进的自回归模型的约20倍。不同于过去的语音AI模型一般只有单一用途,Voicebox基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。在英语文本到文字的转换过程中,Voicebox的平均单词错误率与音频相似度(相较于真实语音)分别为1.9%和0.681,而目前最先进的英语模型Vall-E,则分别为5.9%和0.580。此外,Voicebox还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上,Voicebox同样优于该领域领先的Yo

关注公众号
标签: AI 语音 Meta