阿里巴巴开源语音识别模型 DFSMN

阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN,与此同时团队已将这一模型开源。
 
阿里巴巴开源语音识别模型 DFSMN-DVBCN
 
阿里巴巴达摩院机器智能技术实验室此前在刷新 SQuAD 成绩、KITTI 成绩上有着突出表现。此次开源事件,也是阿里巴巴达摩院机器智能技术实验室首次凭借开发事件获得加分。
 
据了解,这一模型正是在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN(深度前馈序列记忆网络)。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。而官方介绍,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。
 
据悉,DFSMN 模型不仅被谷歌等国外巨头在论文中重点引用,更基于世界最大的免费语音识别数据库 LibriSpeech,将全球语音识别准确率纪录提高至 96.04%。
 
去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。而刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI 收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。这两者都是针对在嘈杂真实环境中的语音识别应用。
 
正如阿里巴巴达摩院机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰此前接受采访时所表示的一样,「今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在明显的鸿沟。」而本次阿里巴巴开源 DFSMN,也是希望能让更多的开发者群体在语音识别领域能发光发热。
相关文章
阿里巴巴2025财年Q1:云智能集团收入为265.49亿元,大文娱集团收入55.81亿元
阿里巴巴2025财年Q1:云智能集团收入为2…
阿里巴巴:投资大模型有助于发展云计算业务
阿里巴巴:投资大模型有助于发展云计算…
阿里巴巴2024财务年度报告:云智能集团增长3%,大文娱集团亏损同比收窄
阿里巴巴2024财务年度报告:云智能集团…
阿里大文娱集团3月份季度收入49.45亿元,云智能集团收入为255.95亿元
阿里大文娱集团3月份季度收入49.45亿元…
阿里巴巴2023年12月份季度净利下降77%,优酷亏损有所增加
阿里巴巴2023年12月份季度净利下降77%,…
阿里巴巴集团CEO、淘天集团董事长吴泳铭将兼任淘天集团CEO
阿里巴巴集团CEO、淘天集团董事长吴泳铭…
我还没有学会写个人说明!