谷歌工程师:AI 的“指数式增长”正在改变计算的本质

2018-11-13 14:07:32爱云资讯

编者按:Google软件工程师Cliff Young解释了深度学习的爆发是如何与摩尔定律的瓦解同时发生的。计算机芯片发展这条延续了数十年的经验法则的破产导致了全新的计算机设计的诞生,而对AI计算能力需求的指数式增长在呼唤新的“超级摩尔定律”的出现。ZDnet的一篇文章介绍了Google AI芯片的进展情况。

AI与机器学习的爆发正在改变计算的本质,这是AI的最大参与者之一Google提出来的说法。

Google软件工程师Cliff Young最近在Linley Group Fall Processor Conference上发表了主旨演讲,这是一个非常流行的计算机芯片学术会议,由知名的半导体分析机构The Linley Group主办。

Young说,AI的使用已经进入“指数式阶段”,而与此同时,已持续数十年的关于半导体发展的经验法则——摩尔定律却已经停滞不前。

他对此陷入了思考:“时间变得有点神经质。数字CMOS正在放缓,我们看到英特尔在10纳米芯片生产商的不景气,我们看到GlobalFoundries放弃了7纳米工艺的研发,与此同时深度学习却在如火如荼地发展,催生了经济需求。”CMOS是互补金属氧化物半导体的简称,这东西是计算机芯片最常见的材料了。

Young指出,随着传统芯片努力想要实现更大的性能和效能,来自AI研究人员的需求却在飙升。他列举了一些数据:在arXiv预打印服务器(由康奈尔大学维护)上列举的关于机器学习的学术论文数量现在每18个月就翻了1番。他还说,Google内部聚焦AI的项目数也是每18个月就翻了1番。跑机器学习神经网络所需的浮点运算的数量增长速度更快,几乎每3个半月就翻了1番

Young说,对计算需求的所有这些增长均可归结为一条“超级摩尔定律”,这是一个被他称为“有点恐怖”也“有点危险”且“值得担心”的现象。

他问道:“为什么会出现这些指数式增长?部分是因为深度学习见效了。很长一段时间以来,我在工作中对机器学习一直都视而不见。因为这些东西能不能做成一直不是很明确。”

但是像图像识别之类的突破不断迅速涌现,他说显然深度学习已经变得“极其高效。过去5年大部分时间里我们一直都是一家AI优先的公司。基于此我们重建了自身大部分的业务。”——从搜索到广告业务等。

Young说,对Google Brain团队的需求导致AI的研究转到了“巨型机(gigantic machines)”的研发方向。比方说,神经网络有时候要通过部署的“权重”(指应用到神经网络用以塑造数据操纵的变量)数量来衡量。

尽管需要计算的这样的权重传统神经网络可能有数十乃至数百万个之多。但Google的科学家却说“请给我们一台可计算TB(万亿)级别权重的机器。”这是因为“每次你把神经网络的规模翻番时,我们就能获得精确度上的改进。”越大越大现在是AI的规则。

当然,为了响应这一需求,Google一直在开发自家的机器学习芯片,“Tensor Processing Unit”。出现对TPU之流的需求是因为传统CPU和GPU已经跟不上AI的发展步伐。

Young说:“很长一段时间以来,我们都说英特尔和Nvidia的确很擅长建造高性能系统。不过5年前我们已经突破了这一阈值。”

TPU在2017年的首次出现引起了一番骚动,因为制造者宣称其性能要比传统芯片更加出色。Google现在已经迭代到第三代的TPU,目前正在内部使用,并且通过Google Cloud提供按需计算节点。

公司不断地造出越来越大的TPU实例。其“pod”配置一共捆绑了1024台TPU,组装出了一种全新的超级计算机,Young说,Google打算“继续扩大该系统的规模”。

他说:“我们正在建造的这些庞大的计算机系统计算达到了数十PB。我们正在从各个方向不懈地推动进展,TB级的计算还在不断攀升。”

他说这类工程设计“引出了所有这些超级计算机设计上的问题。”

比方说,Google工程师已经采用了传奇超级计算机公司Cray的设计技巧。他们组合出了一个“庞大的矩阵乘法单元,”芯片的这个部分承担了神经网络计算的主要工作,配置了“一个通用的向量单元”与“通用的标量单元”,就像Cray的一样。他观察到:“标量与向量单元的结合让Cray做得比比别人都好。”

Google已经开发出自家新颖的算法构造来对芯片进行编程。有个东西叫做“bfloat16”,这是一种表示实数的手段,在神经网络的数字处理方面能提供更高的效率。俗称为“脑浮点数”。

TPU利用了最快的内存芯片,所谓的高带宽内存,或者HBM。他说,在训练神经网络方面对内存容量的需求出现了飙升。

他说:“内存在训练方面要密集得多。大家都讨论到数亿的权重,但处理神经网络变量的激活也是个问题。”

Google还在调整对神经网络编程的方式以便最大限度地利用硬件。 “我们在数据和模型并行机制方面做了大量工作,”比方说 “Mesh TensorFlow”之类的项目就采用了该公司的TensorFlow编程框架“将数据与模型并行机制以pod的规模进行结合。”

不过其中的一些技术细节Young并不愿透露。他指出该公司对“互连(interconnects,数据在芯片内部的移动方式)”谈得还不多,只是说“我们有庞大的连接器。”他拒绝提供更多信息,引发了听众的笑声。

Young还指出了计算领域其他一些更加迷人的地方,并称其实现并不遥远。比方说,他提出通过模拟芯片来进行计算。模拟芯片可以将输入作为连续值而不是0与1来进行处理,这种做法有望扮演重要角色。“也许我们可以从模拟域取取经,在物理上有一些非常酷的东西,比如模拟计算,或者非易失性技术。”

他对与会的一些芯片初创企业提出了创造出新技术的希望。“有一些非常酷的初创企业,我们需要他们的工作,因为数字CMOS只能带我们去到那么远了;我希望投资能放到他们身上。”

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023