微比恩 > 信息聚合 > Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)

Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)

2022-01-10 14:38:41来源: IT之家

借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗?最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。目前,Meta 已将相关代码开源至 GitHub。自监督 + 多模态Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可

关注公众号
标签: AI 语音 Meta 开源