算法演进如何成就高能效的人工智能-AI云资讯

QualcommTechnologies正凭借其规模化的技术发明致力于让数万亿终端支持人工智能（AI），这将不仅丰富我们的生活，同时也将变革诸多行业。对于运行在联网终端上的AI，它的处理能效需要不断提升。高能效是Qualcomm AI Research的核心研究领域之一。本篇博客将通过举例说明Qualcomm在高能效AI算法方面的最新研究，以及它如何与高能效的硬件设计相辅相成。

每焦耳提供多少智能将成为AI的评估基准

深度神经网络（DNN）的爆发式增长正在推动AI的发展。在深度神经网络的能耗以指数级增长的同时，其预测的准确性也相应提升，尽管这一提升十分微小但却至关重要。根据目前的发展趋势，预计在2025年，神经网络有望将其规模扩大至100万亿个权重参数（图1），这一数据与人类大脑中突触的数量接近。大脑的能效比目前的数字硬件高100倍，因此它也赋予我们不断提升的希望和动力。

深度神经网络（DNN）的爆发式增长正驱动大量的能源消耗。（资料来源：韦灵思）

值得关注的是，很快，AI处理的基准测试将会有所改变，AI算法将以每焦耳可以提供多少智能作为衡量指标。两个主要原因如下：

一方面，广泛的经济可行性需要高能效AI，这是因为AI所创造的价值必须高于运行该服务的成本。更直观的说，对于应用AI的每项交易，它的经济效益可能要求成本低至1微美元（即一美分的万分之一），比如利用AI实现个性化广告和推荐。

另一方面，将终端侧AI处理运行在精致、超薄的移动终端上也要求高能效。一个让消费者广泛采用AI的场景是，在功耗和散热能力有限且要求全天续航的终端设计中，处理始终在线的计算密集型工作负载。此外，一些其他类型的终端也要求同样的能效特性，例如自动驾驶汽车、无人机和机器人。

更深入地研究深度神经网络

主要由卷积神经网络（CNN）组成的深度神经网络（DNN）正在驱动时下的AI变革。接下来我们将从优点和缺点两方面来介绍CNN。只有从基本角度了解它的缺点才能帮助我们改进CNN。

面向图像分类的简单深度神经网络。

在优点方面，CNN可以借助最新研究成果来提取可学习特征、支持编码位置的不变性（例如上图中的狗，无论它位于图片中哪个位置，都可以被归类）、通过共享参数让“数据高效”，以及在现代硬件上快速执行及并行处理。在缺点和需要改进的方面，CNN最显著的问题是消耗了太多内存、计算能力和能源。它不能对额外的对称性进行编码，例如旋转不变性（如果我们把图2中的狗上下颠倒，它将不能辨认）；它也不能可靠地量化预测的置信度，并且易于被输入侧的轻微改变所欺骗，如对抗样本。我们正在研究各种技术以应对这些挑战，贝叶斯深度学习就是一项非常有前景的技术成果。

噪声对AI来说可以是好事

贝叶斯深度学习是随机的，这意味着在向神经网络的权重增加噪声或随机值的时候，它还会将噪声传播到激活节点。这些噪声可以是好事，并且受到了人类大脑工作方式的启发。贝叶斯深度学习的一个关键优势是通过压缩和量化来降低神经网络模型的复杂度。量化可以减少参数的位宽（例如使用四位而非八位），而压缩则可裁剪模型中的激活节点数量，最终提升能效。如果想了解更多细节也可以观看网络研讨会中更详细的解读。

贝叶斯深度学习不仅仅是一种理论——在研究中，我们已经将其应用在实际用例中。举个例子，在一系列被标记图像的基准数据点上，我们测量了ResNet-18的规模和精确度。ResNet-18是一种用于图像分类的神经网络，且已针对规模而优化。然后，我们比较了先进裁剪方式和贝叶斯裁剪方式的精确度和压缩比。结果显示，贝叶斯裁剪裁的效果最好，其压缩比为基准数据的3倍，同时保持了基本相似的精确度。

AI的整体能效

未来，AI硬件将会如何发展？高效硬件的关键在于，它是从系统层面深入地理解真正的AI工作负载——换言之，真实环境中的应用如何运行在真正的终端上。Qualcomm致力于通过硬件、算法和软件来实现这一点。

对于加速AI硬件，Qualcomm研究了既定任务下恰当的计算架构和内存层级，并消除了降低利用率和阻碍性能达到理论峰值的瓶颈。Qualcomm专注于算法演进，例如贝叶斯深度学习可以帮助优化硬件。对于软件工具，骁龙神经处理引擎软件开发包（SDK）等可以帮助实现硬件的内置优化，旨在提供每瓦时的高性能硬件。

从了解如何编写应用、理解普及的神经网络到检测系统瓶颈，Qualcomm将这些经验和心得反复地应用于硬件设计。上述系统专长让我们在硬件、算法和软件的每一领域不断探索，以提供高效的整体解决方案。正是对高能效AI的无限热情驱动Qualcomm实现我们的愿景，即成就无处不在的终端侧AI。

算法演进如何成就高能效的人工智能

相关文章

AI企业

AI硬件

AI产业

AI技术