今年1月,麻省理工学院的学生穆罕默德·哈夫特-贾瓦赫里安参加了麻省理工学院的绿色人工智能黑客松(Green AI Hackathon),他是出于好奇,想了解在活动中展示的新型超级计算机集群的能力。但他原本计划用一个小时探索一台很酷的新服务器,结果却参加了一场为期三天的创造节能人工智能程序的比赛。
这段经历让研究人工智能在医疗保健领域应用的哈夫特-贾瓦赫里安得到了启示:“我每天用来构建旨在改善医疗保健的模型的集群都有碳足迹,”哈夫特-贾瓦赫里安说。
开发中使用的处理器人工智能算法消耗大量电力。在过去的几年里,随着人工智能应用的增长,其能源消耗和碳排放已经成为一个环境问题。
哈夫特-贾瓦赫里安说:“我改变了计划,在整个黑客马拉松期间都留在这里,以一个不同的目标来完成我的项目:在能源消耗和效率方面改进我的模型。”他从黑客马拉松中获得了1000美元奖金。他现在认为,在开发新的人工智能系统时,碳排放是一个重要因素。
但与Haft-Javaherian不同的是,许多开发人员和研究人员忽视或无视其人工智能项目的环境成本。在云计算服务时代,开发人员可以在几分钟内租用具有数十个cpu和强大图形处理器(gpu)的在线服务器,并快速开发强大的人工智能模型。随着计算需求的增加,他们只需点击几下鼠标就可以添加更多的处理器和gpu(只要他们能负担得起账单),而不知道每增加一个处理器,他们就会对我们的绿色星球造成污染。
为什么人工智能会消耗这么多能量?
最近人工智能功耗的激增很大程度上是由人工智能的普及引起的深度学习这是人工智能算法的一个分支,依赖于处理大量数据。“现代机器学习算法使用深度神经网络(在新窗口打开)波士顿大学计算机科学系副教授、计算机视觉与学习小组主任凯特·萨安科(Kate Saenko)说:“这是一个非常大的数学模型,有数亿甚至数十亿个参数。”
这些众多的参数使神经网络能够解决复杂的问题,如图像分类、人脸和声音识别,以及生成连贯和令人信服的文本。但在以最佳精度执行这些任务之前,神经网络需要进行“训练”,这包括通过在大量示例上执行复杂的计算来调整参数。
“更糟糕的是,网络在看过一次训练示例后不会立即学习;在参数达到最佳精度之前,它必须多次展示示例,”Saenko说。
所有这些计算都需要大量的电力。根据一项研究(在新窗口打开)马萨诸塞大学阿默斯特分校的研究人员发现,在训练变压器(一种深度学习算法)时消耗的电力可以排放超过626,000磅的二氧化碳,几乎是一辆普通美国汽车排放量的五倍。另一项研究(在新窗口打开)谷歌的围棋和国际象棋人工智能系统AlphaZero在训练过程中产生了19.2万磅的二氧化碳。
公平地说,并非所有人工智能系统都如此昂贵。变形金刚被用于一小部分深度学习模型,主要是高级模型自然语言处理系统如OpenAI的GPT-2以及BERT,它最近被整合到谷歌的搜索引擎中。很少有人工智能实验室有财力开发和训练AlphaZero这样昂贵的人工智能模型。
此外,在深度学习模型得到训练后,使用它所需的能量要少得多。“对于一个训练有素的网络进行预测,它只需要查看输入数据一次,而且它只是一个例子,而不是整个大型数据库。因此,推理的计算成本要低得多,”Saenko说。
许多深度学习模型在大型服务器上训练后,可以部署在较小的设备上。的许多应用边缘人工智能现在可以在移动设备、无人机、笔记本电脑和物联网设备上运行。但与其他软件相比,即使是小型深度学习模型也会消耗大量能量。随着深度学习应用的扩展,分配给训练神经网络的计算资源的累积成本正在成为一个问题。
“我们才刚刚开始意识到当前人工智能技术的能源密集型。如果你考虑到人工智能的发展速度有多快,你就会发现我们正朝着一个不可持续的方向前进,”约翰·科恩(John Cohn)说,麻省理工学院沃森人工智能实验室的IBM研究员和研究科学家,他联合领导了麻省理工学院的绿色人工智能黑客马拉松。
根据一个估计(在新窗口打开)到2030年,数据中心可能会消耗全球6%以上的能源。“我不认为会出现这种情况,但我确实认为像我们的黑客马拉松这样的活动表明,当获得关于他们所做选择的反馈时,创造性开发者可以表现得多么出色。他们的解决方案将更加高效,”科恩说。
创造节能的AI硬件
“cpu、gpu和云服务器不是为人工智能工作而设计的。大脑系统公司首席执行官兼联合创始人安德鲁·费尔德曼说:“它们已经被重新设计用于人工智能,因此效率低于专门为人工智能工作设计的处理器。”他将使用重型通用处理器用于人工智能比作使用18轮卡车载着孩子们去参加足球训练。
大脑(在新窗口打开)是为数不多的几家为人工智能算法开发专门硬件的公司之一。去年,英特尔推出了CS-1,这是一款拥有1.2万亿个晶体管、18gb片上内存和40万个处理核的巨大处理器。实际上,这使得有史以来最大的计算机芯片CS-1可以容纳整个深度学习模型,而不需要与其他组件通信。
费尔德曼说:“在制造芯片时,重要的是要注意芯片上的通信速度快、功耗低,而跨芯片的通信速度慢、非常耗电。”“通过构建一个非常大的芯片,Cerebras将计算和通信保存在一个芯片上,极大地降低了总功耗。另一方面,gpu通过复杂的开关将许多芯片聚集在一起。这需要频繁的芯片外通信,通过交换机和其他芯片。这个过程缓慢、低效,而且非常耗电。”
CS-1所使用的功率和空间仅为提供同等计算能力的gpu机架的十分之一。
IBM为麻省理工学院建造并在绿色AI黑客松上展示的新型超级计算机“顿悟”(Satori)也被设计用于进行节能AI训练。顿悟最近被评为世界上最环保的超级计算机之一(在新窗口打开).IBM的科恩说:“Satori能够向用户提供能源/碳反馈,这使它成为改善人工智能硬件和软件碳足迹的绝佳‘实验室’。”
科恩还认为,用于驱动人工智能硬件的能源也同样重要。禅悟现在被安置在马萨诸塞州绿色高性能计算中心(在新窗口打开)(MGHPCC),它几乎完全由可再生能源供电。
“我们最近计算了MGHPCC的Satori高工作负载的成本,与使用平均能源组合的数据中心的普通超级计算机的成本进行了比较。结果是令人震惊的:Satori一年的负荷释放到空气中的碳相当于大约五棵成熟的枫树所储存的碳。在“普通”机器上运行同样的负荷将释放相当于280棵枫树的碳。
波士顿大学信息与系统工程中心主任Yannis Paschalidis提出了一种更好的数据中心和能源电网的集成,他将其描述为“需求-响应”模型。“我们的想法是与电网协调,根据电力供应和需求,按需减少或增加消耗。这有助于公用事业公司更好地管理电网,并将更多的可再生能源整合到生产组合中,”帕斯卡利迪斯说。
例如,当太阳能和风能等可再生能源供应稀缺时,可以指示数据中心通过减缓计算工作和暂停低优先级的人工智能任务来减少消耗。当可再生能源丰富时,数据中心可以通过加快计算速度来增加消耗。
Paschalidis说,电网和人工智能数据中心的智能集成将有助于管理可再生能源的间歇性,同时也减少了休眠电厂拥有过多备用容量的需求。
节能人工智能的未来
科学家和研究人员正在寻找方法来创建在训练过程中不需要大量数据的人工智能系统。毕竟,人工智能科学家试图复制的人脑所使用的数据和能力,只是当前人工智能系统所使用的一小部分。
在今年的AAAI会议上,深度学习先驱Yann LeCun讨论了self-supervised学习(在新窗口打开)这种深度学习系统可以用更少的数据进行学习。其他人,包括认知科学家加里·马库斯,认为未来的方向是混合人工智能(在新窗口打开)它结合了神经网络和更经典的基于规则的人工智能方法。混合人工智能系统被证明是更多的数据和节能而不是纯粹的神经网络系统。
“很明显,人类大脑不需要大量的标记数据。我们可以从相对较少的例子中得出结论,用常识来理解世界。因此,‘半监督’或‘无监督’学习需要的数据和计算量要少得多,这将导致更快的计算速度和更少的能源消耗,”Cohn说。