虚拟化AI:深度学习不仅需要更多的计算能力

2020-08-27 11:13:26爱云资讯

深度学习的最新进展是真正的人工智能吗?Google的Francois Chollet在一篇广泛讨论的文章中讨论了基于技能获取的情报收集方法-现代DL中目前使用的一种方法。他认为,利用可用于训练模型的庞大数据集,人工智能正在掌握技能的掌握,但不一定是真正的人工智能应该包含的“范围,泛化难度,先验和经验”。即使我们在AI方面,尤其是在DL方面取得了进步,我们仍然无法接近DL能够通过更大,训练有素的更准确模型实现的极限,这些模型不仅要考虑技能,还要考虑经验以及对经验的概括。

可以理解,这将重点放在计算能力上,尤其是使数据科学家能够进行复杂的训练实验的硬件。越来越多的Nvidia认为DL是其GPU的主要市场,并收购了Mellanox来加速GPU集群内部的通信。通过最近对Habana的收购,英特尔可能会押注定制AI加速器硬件是更好的选择。其他AI优先硬件包括在定制框中的Cerebras大型芯片,该芯片专为训练DL模型所需的特定类型的密集,长期运行的工作负载而设计。在云中,Google的Tensor处理单元提供了另一个定制选项。

对于运行自己的DL工作负载的公司而言,更多的计算通常更好。无论是奇特的AI加速器还是经过测试的GPU,更快的模型训练都意味着更多的迭代,更快的创新和缩短的上市时间。这甚至可能意味着我们可以更快地实现“强大”的AI(即AI超越“狭窄的AI”,后者可以完成单个离散任务)。2020年,公司将继续保持近几年的趋势,投资更多的AI硬件,以满足数据科学家对计算以运行更大的模型来解决更复杂的业务问题的计算需求。

但是硬件并不是全部。常规计算堆栈-从处理器到固件再到虚拟化,抽象,编排和操作层,再到最终用户软件-是为传统工作负载设计的,优先考虑了高可用性,短时间的操作。

但是,训练DL模型与这种工作量相反。在运行模型时,一个实验可能一次或几个小时需要一个或多个处理器的全部计算能力的100%。

挑战的一部分在于,在开发DL算法时,数据科学家具有两种用于计算资源的基本使用模式。开发的第一阶段是构建模型,其中包括编写新代码并对其进行调试,直到模型就绪为止。在此阶段,他们倾向于经常使用单个GPU,但时间较短。

第二阶段是训练,其中模型使用所有训练数据并调整其参数。这可能会消耗多个GPU,甚至可能需要整个集群工作数天。有时,数据科学家想尝试并行训练同一模型的几个变体,以查看哪种模型效果更好。

在大型公司中,DL的计算资源通常由IT部门提供。也许每个数据科学家都静态地分配了固定数量的物理资源,例如一两个GPU用于构建和训练模型。不可避免地,这意味着昂贵的处理器处于闲置状态。或者,数据科学团队可能会共享他们的处理能力,并且不得不争论谁将Nvidia DGX AI超级计算机捆绑了三天,以及谁必须等待轮到他们。

所有这些还给企业IT带来了挑战。IT部门对数据科学团队如何使用其昂贵的计算资源的了解有限。同时,高层不真正了解他们的GPU资源是如何使用的,以及这种使用是否符合他们的业务目标。他们应该在更多的硬件上投资吗?他们应该雇用更多的数据科学团队吗?或者是在工作流中的问题,有两个闲置的资源和数据科学家,无法利用它们,不必等待计算时间。

GPU或AI加速器每分钟空闲都是机会成本。IT部门面临着GPU使用不足的局面,而数据科学团队则认为生产力受到损害,因为从他们的角度来看,硬件处于“使用中”,并且在完成当前工作之前无法训练新模型。如果未使用的GPU可以满负荷使用,它将允许更快的模型训练,更多的迭代和更快的上市时间。

这是公司开始面临的挑战。更好的硬件或更多的硬件可能是必要的,但是如果没有设置软件堆栈来有效地使用该硬件,这还不够。

如何有效共享硬件的根本问题并不新鲜。再次研究虚拟化如何解决传统计算中的这一问题,可以解决数据科学家面临的一些挑战。

传统计算使用虚拟化在多个工作负载之间共享单个物理资源。但是,如果不是共享单个物理资源,而是使用虚拟化创建资源池,从而允许DL项目以弹性,动态的方式消耗所需共享资源的数量,该怎么办?用于DL的虚拟化AI基础架构将在多个共享物理资源上运行单个工作负载。理想情况下,可以将这些资源动态分配给最需要的实验,从而使IT管理员可以有效地管理资源,减少空闲GPU时间并提高群集利用率。

DL的软件堆栈需要与芯片一起发展,以充分利用单个训练实验并更好地优化并行运行多个实验。公司将需要一个全栈,人工智能优先的解决方案,以解决DL 工作负载以及DL 组织的需求。

Omri Geller是Run:AI的联合创始人兼首席执行官,该公司正在开发用于深度学习的新虚拟化和加速平台。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023