GPU寿命太短,AI催生一堆电子垃圾
过去一年多里,人工智能( AI)浪潮席卷全球,主要的科技公司都在大举投资数据中心GPU,这使得市场上最大的数据中心GPU英伟达赚得盆满钵满。虽然高性能的数据中心GPU定价很高,但是使用寿命却不太长,这是由于平常承受着AI推理训练的繁重工作负载,往往比其他组件老化得更快。
最近有报告称,云服务提供商(CSP)运营的数据中心里,这些GPU在AI工作负载中的利用率约为60%至70%。按照这个利用率,GPU通常只能使用1到2年,即便较为理想的状态,最多也就3年。需要强调的是,现在用于AI和HPC应用的数据中心GPU功耗很高,可达到700W或以上,这对于芯片来说是一个很大的压力,一定程度上也减少了寿命。
如果想要延长数据中心GPU的使用寿命,其中一种方法是降低利用率,然而这也意味着其以更缓慢的速度贬值,并且需要更长的时间才能回本,这对于付出高昂成本的企业来说是不利的。因此大部分云服务提供商衡量了收益以后,最常见的做法仍然是以高利用率运行。
此外,报告还根据数据统计结果指出,数据中心GPU的年化故障率约为9%,3年后大概在27%,一般使用一年后更可能频繁地出现故障。
最近,IEEE也在一个报告中说出了差不多的论点。
生成式人工智能带来了大量电子垃圾问题
德勤表示,私人对生成式人工智能的投资已从 2022 年的约 30 亿美元增长至 2023 年的 250 亿美元,约 80% 的私营企业预计人工智能将在未来 3 年推动其业务发展。随着更新、更先进的芯片问世,跟上最新进展意味着升级数据中心的GPU、CPU 和其他电子设备。研究人员预测,这将导致电子垃圾产量激增。
上周发表在《自然计算科学》杂志上的一项研究估计,到 2030 年,仅积极采用大型语言模型(LLM) 每年就会产生 250 万吨电子垃圾。
“人工智能并非凭空而来;它依赖于具有切实环境足迹的大量硬件资源,”研究合著者、以色列赖希曼大学可持续发展与气候研究员Asaf Tzachor表示。“意识到电子垃圾问题对于制定减轻负面环境影响的战略至关重要,同时让我们能够从人工智能的进步中获益,”他说。
大多数关于人工智能可持续性的研究都集中在这些模型的能源和水资源使用情况及其伴随的碳排放上。Tzachor 与中国科学院的王鹏教授和陈伟强教授合作,计算了生成式人工智能可能产生的电子垃圾增长量。这项研究旨在对问题的潜在规模进行估计,研究人员希望这将促使企业采取更可持续的做法。
电子垃圾含有有毒金属和其他化学物质,这些物质会渗入环境并造成健康问题。根据联合国全球电子垃圾监测报告, 2022 年,全球共产生了 6200 万吨电子垃圾。联合国发现,这种垃圾流的增长速度是回收计划的五倍。
未来几年,人工智能可能会对这一问题产生重大影响。Tzachor 表示,与生成式人工智能相关的电子垃圾包括废弃的 GPU、CPU、数据中心备用电源使用的电池、内存模块和印刷电路板。
该研究详细介绍了生成式人工智能应用的四种可能情景——从有限扩张到积极扩张——并预测了从 2023 年每年 2.600 吨的基准来看电子垃圾的潜在扩张。人工智能的有限扩张将在 2023 年至 2030 年期间产生总计 120 万吨的电子垃圾;积极使用将导致在此期间产生总计 500 万吨的电子垃圾。Tzachor 表示,鉴于目前的趋势,积极情景是最有可能的。
这项研究并不全面——它只考虑了大型语言模型,而没有考虑其他形式的生成式人工智能。Tzachor 表示,该团队之所以专注于 LLM,是因为它们是计算量最大的领域之一。“如果包括其他形式的人工智能,预计的电子垃圾数量将会增加,”Tzachor 说道。
理论上,采用更先进的芯片应该可以帮助服务器场以更少的资源做更多的事情,并减少浪费。但每次升级都会导致废物流净增加。鉴于目前对半导体的贸易限制,升级并不总是一种选择。无法获得最先进芯片的国家可能会因此产生更多废物。研究表明,延迟一年升级到最新芯片将导致电子垃圾增加 14%。
减少这种人工智能废物流的最佳方法之一是找到重复使用电子设备的方法,也就是 Tzachor 所说的降级回收。不再先进的服务器可以重新用于托管网站或执行更基本的数据处理任务,也可以捐赠给教育机构。
大多数科技公司(包括亚马逊、谷歌和 Meta)都宣布了可持续发展目标,重点关注碳足迹和使用绿色能源。微软已承诺限制其数据中心的电子垃圾生产。但 Tzachor 表示,可能需要制定法规来确保遵守有关人工智能电子垃圾的最佳做法。“公司应该有动力采用这些策略,”他说。
参考链接
https://spectrum.ieee.org/e-waste