红足1—世足球网(中国)有限公司

软件决定性能上限，华为云CloudMatrix让大模型跑得又快又稳又省

发布时间：2025-07-09

大模型像是人工智能爆发时代的一个业务怪兽，未来十年，深度学习的计算能力将再提高100万倍，迅速吞噬着现代计算机的三个主要要素：计算，内存和网络。过去8年，单卡硬件的算力增长40倍，节点内总线带宽只增长了9倍，跨节点网络带宽只增长4倍，集群的通信需求已突破现代计算机架构的承载极限。

算力需求飙升：随着AGI应用的快速成熟，以及模型智能水平的提升，应用场景将会全面铺开（代码&办公&具身智能&自动驾驶）。未来模型预测精度会逐步提升，同时模型参数量持续增加，约100-700万亿的参数量，接近人脑神经元数量规模。从而算力需求会接近百万倍提升，从10EFLOPS到10YFLOPS量级，算力需求呈现指数倍级的飙升。

算力效率降低：头部的大模型公司为了更高的训练效率，采用分布式训练技术（EP/TP/DP）。在这个过程中“数据同步”和“梯度同步”是两种关键操作，它们直接影响训练效率。这意味着分布式训练的核心矛盾在于，并行计算需要节点间协作，但协作过程会产生通信瓶颈，从而导致算力利用率从85%降至52%，算力浪费达到39%。

大模型训练高算力依赖与成本攀升的问题，已成为AI落地的瓶颈。很多企业购买高端的算力，在多卡并行训练的场景下，受限于集群调度，网络拓扑结构等能力，往往只能获得30%的集群算力利用率。因此，以小算力获取大能力，从而提升单卡吞吐效率和AI集群算力、降低算力使用成本，是企业的核心诉求。也驱动计算范式从单算力向混合算力协同发展，从单机向集群灵活部署发展，从传统应用松散分布向多样应用紧密融合发展，对下一代数据中心架构提出更高要求。

华为云认为，下一代云计算体系架构将是矩阵式。那到底什么是新一代的矩阵算力架构？ “一切皆对等、一切可池化、一切可组合”是华为云CloudMatrix的三大核心。本质是让算力、内存、网络像水一样，可按需组成不同类型的资源池，并自由流动在集群内。从而打破当代系统计算，网络和内存等资源固定配比，突破传统的架构限制，实现弹性、高效、低成本的资源能力。

无法量化的系统，无从改进。华为云CloudMatrix矩阵算力架构，以构建训练业务更优时间为目标，定义可衡量训练能力的范式。基于一个多维公式，综合求解“有效计算时间、通信延迟、任务调度效率、系统可用性”四大核心变量，实现精准平衡。

黑科技一：分布式QingTian，实现CloudMatrix中的“一切可池化”

分布式QingTian是华为云超节点的架构底座，业界首个实现两大资源池化技术。

网络IO设备池化：通过分布式QingTian Box智能硬件，将网卡、存储等IO设备解耦重组，彻底消除传统架构中IO与计算的绑定关系。用户无需感知物理位置，像调用本地资源一样使用全局IO能力，使得超节点间带宽提升8倍至3.2T。

内存资源池化：华为云创新的Memlink-direct技术，支持64字节级精细读写，实现内存跨主机直接共享，将访存时延降至百纳秒级。在超节点内构建统一寻址的逻辑内存池，打破“单机内存墙”，实现CPU/NPU与内存的弹性配比。

黑科技二：MatrixCompute，实现CloudMatrix中的“一切可组合”

传统资源如同一个个停在不同仓库的独轮车，每辆车只能独自搬运货物（处理数据），仓库之间道路不通（系统间计算隔离，内存隔离），一旦货物量激增，独轮车要么堵在仓库门口，要么因超载趴窝，这就是“系统孤岛”的困境。

MatrixCompute利用分布式QingTian的底座，拆除仓库之间的围墙。让应用需求与资源配置实时最优匹配，资源可以随意组合，不再担心应用资源激增的困境。既可以组装超级集装箱车，也可以组装成为超跑。采用两大关键技术：

超级实例（One Instance）：通过内存池化技术和MatrixLink互联技术，突破单机物理极限。可以满足百TB级内存需求的AI训练/科学仿真任务，万亿数据量的实时分析任务的资源诉求。

柔性计算：通过“内存热拆借技术”和“微妙级热伸缩”技术，系统会实时监测任务负载，动态调整CPU/NPU/内存配比，消除资源预估偏差导致的浪费或瓶颈。使得单任务资源利用率提升40%~100%。

黑科技三：MatrixLink，实现CloudMatrix中的“一切皆对等”

可以想象一条只能行驶1辆车的乡间小路，会让整个资源效率运行得十分低效。而MatrixLink如同将道路扩建成10车道的高速公路，10辆车并行行驶，整体运输效率提升10倍。同时，MatrixLink为服务器间的数据同步和梯度同步提供“智能导航系统”，并构建“数

据立交桥”，保障每辆车“训练进度”一致，从而保障性能提升数倍。

MatrixLink四层重构了整个网络通信模式，彻底改变统服务器间的以太网互联的瓶颈，从而助推CloudMatrix万卡集群线性度>95%。

第一层重构组网：通过总线+分布式QingTian混合组网，改变了传统CLOS组网模式，将NPU卡间通信带宽提升32倍。
第二层重构协议：将CPU-NPU、NPU-NPU的协议都统一，减少了协议开销，使得小包传输P99时延降低100倍。
第三层重构通信语义：将传统通信的消息语义转变成内存语义，使得通信算子性能提升10倍。
第四层重构通信调度：随机路由转变成全局拓扑感知的路由，使得万卡通信“0”冲突，通信效率提升30%。

总之，MatrixLink基于全局拓扑感知的智能调度算法，使得平均通信时延降低30%。

黑科技四：MatrixContainer，以应用驱动的“算-网-存”

在传统模式中，汽车（系统）和道路（基础设施）是割裂的：车只能适应固定的道路条件，道路也无法感知车的需求。MatrixContainer通过智能感知“资源池化、计算可组合，网络智能化”所有资源，统一的调度以及弹性的能力实现了“车路协同”式的动态优化。

MatrixContainer可实现“应用-超节点基础设施”双向智能协同。通过网络自适应，屏蔽超节点复杂网络拓扑，实时分配最优路径；通过Hyperjob并行框架，实现千亿模型自动超节点并行，并行效率业界领先15%+；通过算力自动伸缩，实现超节点内微妙级弹性伸缩。

黑科技五：瑶光云脑，全天候的“AI检修员”

超节点基础设施在带来极致算力和超高带宽的同时，架构更复杂、链路更冗长、定位更棘手。华为云真实的万卡集群的统计数据，一个集群中有近1.5万个光模块，面对如此复杂网络拓扑结构，任一节点故障，都可能终端训练和推理任务。

瑶光云脑采用 “三层容错”智能运维架构。“基础设施管理层”负责底层故障的实时智能侦测及修复。“系统层”支持断连重传机制，再进一步屏蔽底层硬件故障。“业务层”通过热迁移等方式对故障进行主动规避。从而实现“1min发现，10分钟恢复”，将故障恢复时长MTTR降低50%。

纵观整个计算资源发展的历程，从单台服务器的“单打独斗”到分布式集群的“千军万马”，从数据孤岛的“信息壁垒”到资源共享的"算网协同"，CloudMatrix架构重新定义IT系统的性能边界，让计算资源、容器技术和网络通信像一支训练有素的车队，在数字化的“高速公路”上跑出效率的极限，从而实现业界单卡推理吞吐量（Tokens 2300/卡/秒），集群规模（单集群10万PFLOPS，线性度>95%，支持万亿参数模型），以及资源使用，灵活配比。让企业突破业务瓶颈、驶向智能时代！

注：本文素材转自华为云，版权归作者所有

上一篇：华为云主机迁移服务，助力用户高效迁移下一篇：华为发布新一代OceanStor Dorado 3000融合全闪存，为商业市场注入超凡动力

返回列表