探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率-爱云资讯

AI芯片近年来快速发展，众多企业纷纷布局，新型芯片架构不断涌现，多个场景下的智能芯片应用正在加快部署。其中，智能音箱的火热以及背后语音交互生态的成熟，带动了越来越多设备的语音化、智能化，并迎来了AI语音芯片的高速增长。

近日，探境科技就一举发布了由低功耗系列、主打系列、旗舰系列组成的三大系列、六颗AI芯片组成的产品矩阵。值得一提的是，在产品矩阵中，探境发布了具备AI双麦降噪功能的语音识别方案，即Voitist音旋风612，以及首个离在线一体的语音识别解决方案：Voitist音旋风621。

在接受猎云网等媒体采访时，探境科技技术副总裁李同治表示，虽然AI语音芯片快速崛起，但在语音控制技术层面仍面临诸多挑战。

例如，由于高噪声、远场识别环境造成低信噪比情况、由于非稳态噪声对于降噪算法产生影响、以及在语音识别期间，同时播放电视剧、音乐造成的多声源问题。

如何解决复杂环境甚至严苛环境下的语音识别？探境科技通过以下几大技术亮点进行了回答。

AI降噪+HONN，无惧家居噪音

在日常生活的一些典型的高噪声使用场景中，如抽油烟机或者扫地机器人，噪声最低也有70分贝；并且MIC也距离这些噪声源非常近，而实际用户往往距离MIC的距离会远些，这些因素叠加会导致我们语音识别设备采集到的信噪比非常低。

信噪比，是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低，识别难度越大。

在语音识别的研发过程中，一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别，首先要在降噪处理上下功夫。

注：图片来自探境科技

探境自研的AI降噪算法基于深度学习，不仅能够处理稳态的噪声，非稳态的突发性噪声也能很好的过滤。

据探境科技副总裁李同治介绍，为了验证探境AI降噪算法的有效性，他曾将一批信噪比在3dB左右的语音数据送到一个知名的云端公开语音识别引擎做了测试，降噪后比降噪前提高30%识别准确率。

在对声音进行降噪处理之后，就进入到了语音识别环节。在这一环节中，神经网络模型所需的算力决定了模型的描述能力，同时也决定了模型处理能力和识别率的上限。

在传统的语音识别算法里，用的最多的是全连接的操作，叫DNN/DTNN——目前，国内有多家语音识别芯片采用的都是DNN的方法。

相比较于全连接操作，卷积操作能够提供更高的计算强度，且卷积运算与人类大脑负责感知模块的处理方法类似，能够提取满足大脑认知的本质特征。

探境将其计算机视觉中的一些经验迁移到语音识别中，在语音识别算法上加入了更多的卷积操作，重新设计了一个高计算强度的神经网络，即HONN（High Operation Neural Network）。

在高计算强度神经网络里，每一个处理单元变成了立体维度的，优于平面上的处理，因此高计算强度神经网络的信息量和计算密度，也远远超过传统DNN/DTNN的方法，带来的直接效果是，多了一个维度的识别，性能提升是显而易见的。

注：图片来自探境科技

可以看出高计算强度的模型仅需要350k的存储空间，而DNN需要1.6M的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。

同时DNN与HONN所需的算力相反，处理高强度模型单帧时，HONN需要超过几百兆OPS，而一般的DNN模型需要个位数的算力。

两者相差超过30倍。对于神经网络来说，模型所需的算力决定了模型识别率的上限。

相对安静的环境下两者之间差别不大，但是当信噪比进一步降低时，基于HONN的方法识别优势非常明显。

正是依托于AI降噪技术+HONN神经网络，探境的Voitist音旋风611，可以覆盖绝大部分的生活场景，无惧各种噪音干扰。

端到端双麦加持，攻克0dB环境

然而信噪比还有一种更严苛的情况，即0dB和负dB，0dB意味着噪声和信号强度一样，甚至噪声比语音信号还要强。

“生活中超强噪音在所难免，为了提升低这些场景下的识别率，还需要使用麦克风阵列来增强语音信号。探境在双麦算法上有自己的独门绝技—FCSP双麦识别算法”，李同治介绍。

传统的麦克风阵列处理算法有几大缺点。

首先，在语音信号增强模块，波束成形依赖于声源定位（DOA），DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号，会影响最终的唤醒率。

注：图片来自探境科技

其次，传统的阵列处理算法包含降噪、信号增强和识别多个环节，这些环节并不以降低识别率为优化目标，优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价，会出现不适配的情况。

再次，由于整套流程对麦克风以及电容元器件的一致性要求非常高，提高了物料成本。

“有时候大家在实验室做得很好，但是量产后发现识别率变差，就是因为波束成形和声源定位的要求高，一旦出现了波动，会影响识别效果”，李同治提到。

另外，波束成形算法原理是增强特定方向波束内的信号强度，衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候，两者在同一个波束内，信号和噪声同时被增强，无法提升信噪比。

因此，传统的麦克风阵列处理算法效果并不理想。

“为了克服传统分模块语音增强算法的这些缺点，我们设计出了基于FCSP的端到端AI双麦算法”，李同治表示。FCSP（Frequency Complex Subspace Projection）是探境自研的频域复数子空间投影算法的简称。

这个算法直接输入阵列信号，输出的是最终的识别结果，中间部分全部交给基于深度学习的AI算法来处理，不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化，避免了语音增强与语音识别模块错配的问题。

注：图片来自探境科技

另外，在模型训练期间，采取了“注意力增强”的学习方法，能够灵敏的检测到唤醒词和命令词，即使干扰信号与目标信号方向接近，也能灵敏的进行唤醒和识别。

“这个类似于在一个嘈杂的环境里面，如果有人喊自己的名字，一下子就能反应过来。”李同治做了一个形象的比喻。

注：图片来自探境科技

“端到端”是目前国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司，也是通过类似的方法。据媒体报道，谷歌公司采用了Factored Model in Frequency的算法，相对错误率降低至16%，双麦达到了传统算法7麦的识别率。

探境科技采取了频域复数子空间投影，抗噪性能强，在信噪比为0dB时，相对于传统的处理算法，相对识别错误率降低超过20%。

通过AI语音算法+HONN神经网络模型来提升识别率，再通过FCSP“端到端”的双麦处理算法简化识别流程，降低最终识别错误率，探境的语音算法实现了跨越式的升级。

当然，AI芯片不可能脱离芯片只谈算法。性能优异的算法，一定需要算力强劲且通用性强的AI芯片来支持，才能展现出强悍的实力。

探境自研的SFA架构，以存储驱动计算，具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时，只需要一个较高层次的神经网络描述。

SFA的编译器首先将这个神经网络进行全部融合，然后根据具体架构实现的规模产生一个统一的存储流图，再进行存储节点的时空映射，最后根据各个节点之间的计算类型配置计算单元，组合起来形成一个统一的固件供SFA控制器使用。

这意味着SFA架构所采用的各种微观和宏观调度算法，比较“类CPU架构”采用的基于总线和指令集的映射方法，在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下，可以获得8~12倍的利用率收益。

“SFA（存储优先）架构是探境的产品基石，正是借助SFA的优势，我们的AI芯片产品才能‘裂变式’的推出，大大加快了探境的商业化落地速度。”探境CEO鲁勇这样评价SFA架构的意义。

多种产品规格，实现百万级出货

除了支持AI双麦的Voitist音旋风612之外，还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。

探境目前拥有约30家合作伙伴，出货量已达百万级别。探境的战略合作伙伴关系既有美的、海尔等智能家居制造的大厂，也有像世强科技这样在垂直领域颇具影响力的渠道商。据透露知名智能家居制造商阿凡达智控也刚刚与探境达成合作。

注：图片来自探境科技

据探境科技创始人&CEO鲁勇透露，未来，探境还会将语音产品进行二次升级，推出更多在线离线一体化方案。

“探境不仅仅是一个语音芯片公司，而是一家语音、图像整体结合的AI芯片公司。AI芯片的蛋糕非常大，探境希望可以联合上下游一起，开发生态，开放SDK和工具链，不仅仅是大家可以直接使用我们的产品，我们也希望有大量的合作伙伴，完成更多的场景开发。”鲁勇表示。

另外，探境公布了首个图像芯片的IPS/W高达800，是目前已知AI芯片中最高的。在已公布的发展战略中，探境还瞄准了工业视觉、新零售、安防、辅助驾驶等市场。

据鲁勇介绍，探境的图像芯片在2019年Q4就已经流片成功，图像的某些领域甚至已经开始产生营收了。

鲁勇认为，AI芯片这一领域不像手机APP那样，瞬间可以凭一款应用获得数百万的用户，AI芯片更像马拉松长跑，比的是耐力，而不是冲刺速度，在这场比赛中，不是要看谁跑得快，而是要看谁有潜力到达终点，谁在中途不走岔路。

探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业