AI场景中的3大存力痛点
AI服务器上的DRAM资源按各类场景的需求配置,在LLM负载主导的场景中DRAM的整体利用率普遍偏低。
AI加速器(如GPU、NPU、TPU等)的HBM容量增长速度远落后于大模型存储需求的增长速度。
以存代算,降低推理时延迟
以存代算技术将多轮对话的历史KV Cache保存至EMS,在后续对话中直接重复使用,实现AI推理的首Token时延降低80%,降低端到端的推理成本。
显存扩展技术将模型分层存储在显存和EMS中,无需堆砌NPU可存下TB级大模型,使NPU算力节省超50%。
算力卸载技术将KV相关的计算卸载至EMS中的CPU,模型计算在NPU中进行,实现AI推理吞吐量提升100%。
直面LLM难题,释放推理算力
- 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
- 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
- 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。
华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。
- EMS缓存多轮对话的历史KV Cache,历史KV Cache命中时无需重新做推理计算,通过以存代算,可提升推理吞吐,节省AI推理算力资源。
- EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本。



沪公网安备 31010702006392号