作者 | 周愚 编辑 | 邓咏仪美国时间6月16日,Meta正式发布语音生成模型Voicebox。据官网介绍,通过非自回归“流匹配”(Flow Matching)技术,研究人员无需手动标记不同数据,即可利用长达5万小时的语言和有声书文本训练Voicebox。Voicebox生成语音的速度,可到达目前最先进的自回归模型的约20倍。不同于过去的语音AI模型一般只有单一用途,Voicebox基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。在英语文本到文字的转换过程中,Voicebox的平均单词错误率与音频相似度(相较于真实语音)分别为1.9%和0.681,而目前最先进的英语模型Vall-E,则分别为5.9%和0.580。此外,Voicebox还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上,Voicebox同样优于该领域领先的Yo
Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线
2023-06-19 16:24:05来源: 36氪
关注公众号
赞
你的鼓励是对作者的最大支持
- 传音与联发科共建人工智能联合实验室,聚焦手机端侧 AI 技术创新2024-09-19 14:43:55
- 《幻兽帕鲁》开发商 Pocket Pair 回应任天堂诉讼:游戏运营及服务不受影响2024-09-19 17:24:31
- SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器2024-09-19 17:26:57
- 保卫厨房,A.O.史密斯AI-LiNK厨房安全套系助您畅享安全美好生活2024-09-18 16:21:00
- it.com Domains持续增长,宣布通过GMO在亚太推出创新域名解决方案2024-09-18 18:14:00
- 90%东南亚用户偏爱Instagram等购物便利性:Gen AI塑造电商未来2024-09-18 18:18:00
- 英矽智能AI赋能开发的TNIK抑制剂获IIa期临床试验积极结果2024-09-19 09:00:00
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制2024-09-18 08:58:57
- 谷歌搜索将整合 C2PA 2.1 标准,标注 AI 生成 / 编辑图片2024-09-18 09:10:59