微软语音识别里程碑式突破,Switchboard 词错率降至 5.1%

2017年09月26日

微软语音识别里程碑式突破,Switchboard 词错率降至 5.1%





Switchboard是一个电话语音语料库,作为语音识别系统的基准,已被使用超过20年。去年,微软率先实现语音识别系统5.9%的低错误率,在Switchboard对话语音识别任务中已经达到人类对等的水平。今年8月20日,微软语音和对话研究团队负责人黄学东宣布,微软语音识别系统继去年之后再次取得重大突破,词错率由5.9%进一步降到5.1%,可以与专业速记员比肩。此次突破大幅刷新原先记录,并在语音识别行业树立了新的里程碑。   

 

 本次研究基于Switchboard语料库,语料库中包含大概2400段电话对话。语音识别测试任务包括对陌生人对话交流中的不同话题,比如体育和政治方面的讨论,进行了从语音到文字的转录。研究人员通过改进微软语音识别系统中基于神经网络的听觉的语言模型,在去年的基础上降低了大概12%的出错率,同时引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)模型,用于提升语音建模。并且系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧、句音级别和词级别下都可以发挥效果。

 

除此以外,研究人员还对整个对话过程进行历史记录分析,适应录音样本的语境,预测对话中很可能出现的下一个词汇或短语,进一步加强识别器的语言模型,使其能够有效适应对话话题和语境的快速转变。这正是人类在于其他人对话时候的做法。

 

目前,微软的语音识别系统已被用于语音助手“小娜”Cortana、实时翻译字幕功能Presentation Translator以及微软认知服务中。