依图语音识别“弯道超车”破除质疑迭代挑战下凸显上升空间-爱云资讯

首页人工智能公司正文

近日，国内著名四大AI独角兽之一的依图科技在北京公开展示了语音识别领域的最新技术成果。短语音听写的字错率(CER)仅为3.71%，相比原业内领先者提升约20%，大幅刷新现有纪录，并表示将在近期开放依图语音识别API接口以及部分测试数据集。另外，宣布将基于其语音识别技术与微软Azure、华为推出联合方案平台。

依图虽以CV见长，但语音识别进展的速度，也再度刷新了部分人的固有印象。纵观整场展示会，依图各类测试结果均以横向对比的形式体现，对比目标包括讯飞、云知声、阿里、腾讯、百度等多家主流公司旗下的各类语音识别项目，该批测试于今年11月底完成，数据覆盖到近60万字、50小时的语料，近远场跨度在20cm-10m。

在编者看来，字错率等多项性能数据对比下，依图都展示出了自己的领先水准，着实令人意外。同时，如此直白的强烈对比之下，耿直的依图等于一下子把行业的“遮羞布”都掀开，借助别人来赞扬自己，令不少友商颇感不适。

毕竟触及了行业和友商的利益，会后不少业内人士都质疑当中的公正性和客观性。实际上，虽然各项测试横向对比均为各厂商的开放平台方案，并不完全代表各家语音识别领域的综合实力水平，但依图有底气开放算法API以及测试数据集，足以说明真实水平和公正性。所有公开数据集上的测试结果均可复现之前的展示，其他友商目前或许还没有这个底气，性能多少有夸大的嫌疑。

另据编者了解，依图的多项测试并不是单一设备完成的。当中包括科技、医疗等20多个领域及手机、智能音箱等多种硬件设备。毕竟，覆盖到多类设备和场景，减少影响语音识别效果的因素，能从根本上降低误差，提升客观性，当然这是在同一套算法下实现的。

不过话说回来，即便依图确实在短短时间内实现了“弯道超车”。但与人脸识别不同的是，语音识别还属于“不透明”的领域，虽然整个行业都在宣传语音识别的准确率达到95%以上，但并非代表达到真正好用的程度，多数情况下都是来自近场、安静等受限场景，对于其他有干扰或更复杂的场景，则会增加实际应用中的不确定性，让理想和现实存在差距，所以还需要针对性的设计模型，这会导致应用场景难以突破等一系列问题。

另外，当前技术迭代到什么样的水平，也没有一个清晰的认知。即便要比较，目前缺乏系统性的标准测试、测试集，而要覆盖多维度多场景的数据成本过高;再者，工业界语音识别的水平早已超过学术界，不同行业更加缺乏体验和比较的工具。早前科大讯飞的“造假门”余波未平，而中文语音识别算法良莠不齐，算法能力也远未超越人类，依图与微软Azure、华为的进一步合作也表明语音识别在技术及构建AI生态等维度还有上升的空间。

综上所述，依图科技语音识别能力确实凸显出了“弯道超车”的迹象，但只在某些细分技术上的暂时领先，并不能让行业出现革命性的进步。不过，编者预计，按照依图目前的节奏，在未来的一年内，其语音识别技术的算法性能将出现高速增长期，更多的场景也将被解锁，并频繁露脸，可能这个过程中也许会得罪某些同行，但当中的积极意义和行业价值还是值得肯定的。

依图语音识别“弯道超车”破除质疑 迭代挑战下凸显上升空间

依图语音识别“弯道超车”破除质疑迭代挑战下凸显上升空间