10万卡AI集群与F1赛车有何异同?
进入AI时代,数据中心网络已经由围绕着CPU转变为围绕着GPU进行设计,以便让GPU这个“高性能引擎”,充分发挥其计算潜能。腾讯云副总裁王亚晨将GPU比作F1赛车,表示若想让赛车尽情展现速度与激情,就必须其为建设一条专业赛道(也就是高性能的数据中心网络)。
从去年到今年,腾讯星脉网络从1.0全面升级至2.0,能够轻松支持超10万卡大规模组网,并将AI大模型训练效率提升20%。类比来说,腾讯已经为AI大模型训练的”F1竞赛“做好了准备。
腾讯云副总裁王亚晨
别让网络成为瓶颈
以前为CPU设计的数据中心网络,就像是让赛车跑在普通的马路上,不仅会有坑坑洼洼,还会有拥塞。而以GPU为核心的AI大规模训练场景,对于网络的丢包、拥塞、时延等指标非常敏感。“假设有1%的丢包,整个GPU的利用率会下降50%。”王亚晨如是说。
那么,究竟应该如何为AI大规模训练建设一个高标准的”赛车环境“呢?
随着生成式AI的爆发,当前,AI大模型的参数量已经从亿级扩展到万亿级。腾讯自研的混元大模型的参数规模即从2023年的千亿,扩大到了最新的万亿参数规模。同时,模型本身的架构也在持续升级。腾讯混元大模型的底层架构就从Dense升级为混合专家模型(MoE)。这些改变对底层网络提出了更高的要求。
由于模型规模越来越大,对于底层算力的需求也水涨船高。GPU从几千张卡到上万张卡,再到十万张卡,大量服务器通过高速网络组成大规模算力集群,共同完成训练任务是大势所趋。
集群训练势必会引入额外的通信开销。由于各节点间要相互通信、同步计算结果,所以集群规模越大,产生的通信损耗也会越高。
面对万亿参数规模的大模型训练,仅仅是单次计算迭代内梯度同步需要的通信量就达到百GB量级,此外还有各种并行模式、加速框架引入的通信需求等,使得传统低速网络的带宽远远无法支撑GPU集群的高效计算。
在模型训练的过程中,GPU要么是在快速进行计算,要么是在通信,即等数据同步完成。而“等待”则意味着计算资源的浪费。
王亚晨一针见血地指出:”在大规模组网的前提下,提升通信效率、降低通信占比,让训练稳定、高可用,进而提升GPU的利用率和模型训练效率,是AI网络必须解决的核心问题。“
数据显示,星脉网络2.0在大模型训练过程中,其网络通信占比低至6%,远低于10%的业界水平;通信负载率达到90%,与IB(Infiniband)网络持平,相较于标准以太网提升60%。星脉网络2.0的整体能力已处于业界顶尖水平。
星脉网络2.0有哪些秘密武器?
为保障AI大模型”F1竞赛“顺利进行,腾讯云都提供了哪些精良的”装备“呢?星脉高性能算力网络铺就了高标准“赛道”,腾讯云自研的TiTa和TCCL网络协议就像是“道路控制系统与专业车队”,而腾讯云高性能计算集群HCC的GPU服务器则是马力强大的F1赛车,将肆意挥洒最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。另外,腾讯云还配备了专业的抢修队——运营系统,一旦发生故障,能够快速定位并抢救,让”赛事“快速恢复运行。
下面,就让我们从腾讯星脉网络2.0出发,看看腾讯云的这套”装备“是如何发挥其功用的吧!
首先来看”赛道“,其材质,以及平坦度、宽度等决定了赛车能否跑出加速度。网络带宽即路的宽度,星脉网络2.0的网络带宽达到3.2T,可以轻松传输大规模数据。腾讯自研的交换机就像是”沥青“,可以让路面变得更加平坦。交换机同样采用了腾讯自研的光模块,如同沥青的材料也升级了,让路面的平整度更佳。
在硬件方面,腾讯星脉网络采用全自研的网络设备,其自研交换机容量从25.6T升级到51.2T,光模块的速率从200G升级到400G,并将网络延迟降低40%,而整体组网规模翻倍,同一训练集群最大可支持超过10万卡。特别值得一提的是,星脉网络2.0搭载了腾讯自研的全新算力网卡CNIC。这是公用云领域首款为AI训练设计的网卡,采用了最新一代FPGA芯片,整卡带宽可达400Gbps,具备业界最高的3.2T整机通信带宽。
F1赛事通常要设一个指挥中心。腾讯自研的TiTa协议就相当于指挥中心,主要作用是分配车流量(也就是数据),避免单一车道的拥堵,从而释放赛车的速度极限。在腾讯星脉网络2.0出现之前,通常要在堵车(即网络出现拥塞)后,才会去调节每辆车的速度;而在网络升级到2.0后,每辆车都知道自己应该开多快,从而最大程度地避免拥堵情况的出现。
相比上一代,TiTa协议2.0从部署在交换机上转移到了端侧的网卡上,协议算法也从原来的被动拥塞算法升级到更智能的主动拥塞控制算法,可主动调整数据包发送速率,以避免网络拥堵;同时通过拥堵智能调度,实现了网络拥塞快速自愈。这让MoE训练下的网络通信性能相比协议1.0提升30%,带来了训练效率10%的提升。
TCCL的出现,在车载导航之上,让整个车队更加专业和智能化。星脉网络1.0时代的通信库TCCL,相当于智能导航系统,可以指示最短路径。到了星脉网络2.0时代,TCCL通信库不仅仅是给车加载了导航系统,而是可以根据不同的场景,对赛车本身进行改装,让赛车时刻处于最佳性能。
TCCL通信库经过NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等升级后,在MoE模型训练下,为星脉网络2.0带来了30%的通信效率提升,同时模型训练效率也提升了10%。
运营系统扮演的是抢修队的角色。腾讯提供的全栈网络运营系统保障了道路的可用性,在出现任何异常后,都可以做到第一时间抢修,让网络尽快恢复。星脉网络2.0进一步提升了抢修队的能力,能够对全网进行了更加细致和全面的监控,并在赛车和道路监控的基础上,新增了比赛仿真系统,可以快速定位赛车的故障与性能瓶颈,将故障定位时间从以天计缩短至分钟级别。
为确保星脉网络2.0的高可用,腾讯云自研了端到端的全栈网络运营系统。它新增了灵境仿真平台,从原来仅能定位网络问题,到现在可以定位GPU节点问题,并可实现万卡级训练故障卡顿、慢节点分钟级定位。
在星脉网络2.0的护航之下,即使10万+卡训练也能畅行无忧。
星脉网络3.0呼之欲出
打造“最适合大模型的云”
2024年,10万卡组网方案是用户面临的现实挑战。腾讯星脉网络2.0已经可以做到网络无忧。那么明年,星脉网络会否持续升级到3.0?我们已经看到了一些苗头。
2024年5月,中国信通院与腾讯携手GPU、CPU、交换机芯片制造商、服务器供应商、网络设备厂商及互联网企业等多方力量,共同发起超大带宽ETH-X(以太网)超节点计划。该项目旨在通过产业的协同,打造一个卡间互联的高速协议。据透露,腾讯云希望在未来能交付超节点硬件样机整体系统。这很可能被纳入星脉网络3.0体系,成为一个重要的节点。
未来随着AI的发展,网络领域也会不断演进。要想富,先修路。这在任何一个时代,都是最基本的诉求。除了在网络上发力,腾讯云的愿景是打造“最适合大模型的云”。腾讯自研的通用大模型——腾讯混元大模型在快速持续迭代。同时,腾讯云面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。已有超过80%的头部大模型企业使用了腾讯云服务。
持续升级底层AI基础设施,开创下一代云服务,腾讯云正快马加鞭。