微比恩 > 信息聚合 > 跟机器语音交互的时候到底发生了什么?

跟机器语音交互的时候到底发生了什么?

2022-12-05 18:34:05来源: IT之家

智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。语音交互的完整流程,如下图所示。通常,根据距离远近语音交互场景可分为两种:近场语音场景:通常通过按键激活,例如智能手机等便携设备。远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:将唤醒词的音节长度增加到 4 音节。这是因为音节越长,唤醒的准确率就会越高。比如:“小兴小兴”的唤醒准确率远高于“小兴”。白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地

关注公众号
标签: 语音