大模型像是人工智能爆发时代的一个业务怪兽,未来十年,深度学习的计算能力将再提高100万倍,迅速吞噬着现代计算机的三个主要要素:计算,内存和网络。过去8年,单卡硬件的算力增长40倍,节点内总线带宽只增长了9倍,跨节点网络带宽只增长4倍,集群的通信需求已突破现代计算机架构的承载极限。
算力需求飙升:随着AGI应用的快速成熟,以及模型智能水平的提升,应用场景将会全面铺开(代码&办公&具身智能&自动驾驶)。未来模型预测精度会逐步提升,同时模型参数量持续增加,约100-700万亿的参数量,接近人脑神经元数量规模。从而算力需求会接近百万倍提升,从10EFLOPS到10YFLOPS量级,算力需求呈现指数倍级的飙升。
算力效率降低:头部的大模型公司为了更高的训练效率,采用分布式训练技术(EP/TP/DP)。在这个过程中“数据同步”和“梯度同步”是两种关键操作,它们直接影响训练效率。这意味着分布式训练的核心矛盾在于,并行计算需要节点间协作,但协作过程会产生通信瓶颈,从而导致算力利用率从85%降至52%,算力浪费达到39%。
大模型训练高算力依赖与成本攀升的问题,已成为AI落地的瓶颈。很多企业购买高端的算力,在多卡并行训练的场景下,受限于集群调度,网络拓扑结构等能力,往往只能获得30%的集群算力利用率。因此,以小算力获取大能力,从而提升单卡吞吐效率和AI集群算力、降低算力使用成本,是企业的核心诉求。也驱动计算范式从单算力向混合算力协同发展,从单机向集群灵活部署发展,从传统应用松散分布向多样应用紧密融合发展,对下一代数据中心架构提出更高要求。
华为云认为,下一代云计算体系架构将是矩阵式。那到底什么是新一代的矩阵算力架构? “一切皆对等、一切可池化、一切可组合”是华为云CloudMatrix的三大核心。本质是让算力、内存、网络像水一样,可按需组成不同类型的资源池,并自由流动在集群内。从而打破当代系统计算,网络和内存等资源固定配比,突破传统的架构限制,实现弹性、高效、低成本的资源能力。
无法量化的系统,无从改进。华为云CloudMatrix矩阵算力架构,以构建训练业务更优时间为目标,定义可衡量训练能力的范式。基于一个多维公式,综合求解“有效计算时间、通信延迟、任务调度效率、系统可用性”四大核心变量,实现精准平衡。
黑科技一:分布式QingTian,实现CloudMatrix中的“一切可池化”
分布式QingTian是华为云超节点的架构底座,业界首个实现两大资源池化技术。
网络IO设备池化:通过分布式QingTian Box智能硬件,将网卡、存储等IO设备解耦重组,彻底消除传统架构中IO与计算的绑定关系。用户无需感知物理位置,像调用本地资源一样使用全局IO能力,使得超节点间带宽提升8倍至3.2T。
内存资源池化:华为云创新的Memlink-direct技术,支持64字节级精细读写,实现内存跨主机直接共享,将访存时延降至百纳秒级。在超节点内构建统一寻址的逻辑内存池,打破“单机内存墙”,实现CPU/NPU与内存的弹性配比。
黑科技二:MatrixCompute,实现CloudMatrix中的“一切可组合”
传统资源如同一个个停在不同仓库的独轮车,每辆车只能独自搬运货物(处理数据),仓库之间道路不通(系统间计算隔离,内存隔离),一旦货物量激增,独轮车要么堵在仓库门口,要么因超载趴窝,这就是“系统孤岛”的困境。
MatrixCompute利用分布式QingTian的底座,拆除仓库之间的围墙。让应用需求与资源配置实时最优匹配,资源可以随意组合,不再担心应用资源激增的困境。既可以组装超级集装箱车,也可以组装成为超跑。采用两大关键技术:
超级实例(One Instance):通过内存池化技术和MatrixLink互联技术,突破单机物理极限。可以满足百TB级内存需求的AI训练/科学仿真任务,万亿数据量的实时分析任务的资源诉求。
柔性计算:通过“内存热拆借技术”和“微妙级热伸缩”技术,系统会实时监测任务负载,动态调整CPU/NPU/内存配比,消除资源预估偏差导致的浪费或瓶颈。使得单任务资源利用率提升40%~100%。
黑科技三:MatrixLink,实现CloudMatrix中的“一切皆对等”
可以想象一条只能行驶1辆车的乡间小路,会让整个资源效率运行得十分低效。而MatrixLink如同将道路扩建成10车道的高速公路,10辆车并行行驶,整体运输效率提升10倍。同时,MatrixLink为服务器间的数据同步和梯度同步提供“智能导航系统”,并构建“数
据立交桥”,保障每辆车“训练进度”一致,从而保障性能提升数倍。
MatrixLink四层重构了整个网络通信模式,彻底改变统服务器间的以太网互联的瓶颈,从而助推CloudMatrix万卡集群线性度>95%。
-
第一层重构组网:通过总线+分布式QingTian混合组网,改变了传统CLOS组网模式,将NPU卡间通信带宽提升32倍。
-
第二层重构协议:将CPU-NPU、NPU-NPU的协议都统一,减少了协议开销,使得小包传输P99时延降低100倍。
-
第三层重构通信语义:将传统通信的消息语义转变成内存语义,使得通信算子性能提升10倍。
-
第四层重构通信调度:随机路由转变成全局拓扑感知的路由,使得万卡通信“0”冲突,通信效率提升30%。
总之,MatrixLink基于全局拓扑感知的智能调度算法,使得平均通信时延降低30%。
黑科技四:MatrixContainer,以应用驱动的“算-网-存”
在传统模式中,汽车(系统)和道路(基础设施)是割裂的:车只能适应固定的道路条件,道路也无法感知车的需求。MatrixContainer通过智能感知“资源池化、计算可组合,网络智能化”所有资源,统一的调度以及弹性的能力实现了“车路协同”式的动态优化。
MatrixContainer可实现“应用-超节点基础设施”双向智能协同。通过网络自适应,屏蔽超节点复杂网络拓扑,实时分配最优路径;通过Hyperjob并行框架,实现千亿模型自动超节点并行,并行效率业界领先15%+;通过算力自动伸缩,实现超节点内微妙级弹性伸缩。
黑科技五:瑶光云脑,全天候的“AI检修员”
超节点基础设施在带来极致算力和超高带宽的同时,架构更复杂、链路更冗长、定位更棘手。华为云真实的万卡集群的统计数据,一个集群中有近1.5万个光模块,面对如此复杂网络拓扑结构,任一节点故障,都可能终端训练和推理任务。
瑶光云脑采用 “三层容错”智能运维架构。“基础设施管理层”负责底层故障的实时智能侦测及修复。“系统层”支持断连重传机制,再进一步屏蔽底层硬件故障。“业务层”通过热迁移等方式对故障进行主动规避。从而实现“1min发现,10分钟恢复”,将故障恢复时长MTTR降低50%。
纵观整个计算资源发展的历程,从单台服务器的“单打独斗”到分布式集群的“千军万马”,从数据孤岛的“信息壁垒”到资源共享的"算网协同",CloudMatrix架构重新定义IT系统的性能边界,让计算资源、容器技术和网络通信像一支训练有素的车队,在数字化的“高速公路”上跑出效率的极限,从而实现业界单卡推理吞吐量(Tokens 2300/卡/秒),集群规模(单集群10万PFLOPS,线性度>95%,支持万亿参数模型),以及资源使用,灵活配比。让企业突破业务瓶颈、驶向智能时代!
注:本文素材转自华为云,版权归作者所有



沪公网安备 31010702006392号