使能算存网协同运维、全系统可视可管
三大核心关键能力:
1.设备健康自检:从被动响应转向主动消除风险
基于风险感知算法,对液冷、CDU、光模块等关键部件进行周期性健康检测。在故障发生前系统即可实现风险自动预警,支撑运维人员快速完成风险消除,确保智算中心长稳运行。
2.智算全系统可观测:构建“秒级”运行状态感知能力
基于数字孪生技术实现从 L1 数据中心基础设施、L2 算力集群基础设施、RoCE 网络、集合通信到AI平台、模型及应用7层全系统可观测,做到系统全系统运行状态“秒级”感知。
3.自动故障诊断和倒换:预置AI专业大模型,打造99.9%的高可用率
针对典型场景的慢卡、慢网络及模型性能劣化等常见问题和挑战,MindOps 通过加持智算运维领域专业大模型(EDNS2.0),实现风险感知及预测,将系统故障精准定界定位缩短到分钟级,通过及时自动倒换实现99.9%的算力高可用率。
智算运维解决方案MindOps通过加持数字孪生与领域专业大模型EDNS2.0,实现全系统可观测和自动排障,全新定义智算运维范式,保障算力平台的长稳运行与极致性能,让AI释放新质生产力。
注:本文转自华为ICT服务与软件,版权归作者所有



沪公网安备 31010702006392号