借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗?最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。目前,Meta 已将相关代码开源至 GitHub。自监督 + 多模态Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可
Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)
2022-01-10 14:38:41来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama2024-09-19 14:21:51
- 传音与联发科共建人工智能联合实验室,聚焦手机端侧 AI 技术创新2024-09-19 14:43:55
- 《幻兽帕鲁》开发商 Pocket Pair 回应任天堂诉讼:游戏运营及服务不受影响2024-09-19 17:24:31
- SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器2024-09-19 17:26:57
- 保卫厨房,A.O.史密斯AI-LiNK厨房安全套系助您畅享安全美好生活2024-09-18 16:21:00
- it.com Domains持续增长,宣布通过GMO在亚太推出创新域名解决方案2024-09-18 18:14:00
- 90%东南亚用户偏爱Instagram等购物便利性:Gen AI塑造电商未来2024-09-18 18:18:00
- 英矽智能AI赋能开发的TNIK抑制剂获IIa期临床试验积极结果2024-09-19 09:00:00
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制2024-09-18 08:58:57
- 1输出轻资产管理 济高•世茂芯环中心盛大开业
- 2人民网发布11.11电商服务调研结果 超33%消费者认为京东服务创新最多、最活跃
- 3上海:支持上市公司并购重组,提升公司质量培育龙头企业
- 4官方玩梗!听泉赏宝公司登记听泉猫作品著作权
- 5晓华在原址注册新理发店 晓华个人注册理发店
- 6TÜV南德授予亿联网络MVC S40产品碳足迹核查声明
- 7菲亚特动力科技推出全新紧凑型发动机 R38
- 8TCL智家及TCL家电集团换帅完成工商变更 彭攀任TCL智家及TCL家电集团董事长
- 9小米大模型升级第二代:MiLM2 实现云边端结合,能力平均提升超 45%
- 10Firstrade 宣布将于2025年第一季度推出美股隔夜交易服务