弹性内存存储 EMS|以存代算,降低推理时延迟
发布时间:2025-08-07
AI场景中的3大存力痛点
持久化存储性能不足

 

随着AI大模型和AI系统技术的迅速发展,传统的持久化存储介质已难以满足大模型训练和推理的高性能需求。
DRAM利用率

AI服务器上的DRAM资源按各类场景的需求配置,在LLM负载主导的场景中DRAM的整体利用率普遍偏低。

HBM内存墙

AI加速器(如GPU、NPU、TPU等)的HBM容量增长速度远落后于大模型存储需求的增长速度。

以存代算,降低推理时延迟

 

弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中,通过以存代算,减少了冗余计算,提升推理吞吐量,大幅节省AI推理算力资源,同时可降低推理首Token时延(Time To First Token,TTFT),提升LLM推理对话体验。
以存代算

以存代算技术将多轮对话的历史KV Cache保存至EMS,在后续对话中直接重复使用,实现AI推理的首Token时延降低80%,降低端到端的推理成本。

显著扩展

显存扩展技术将模型分层存储在显存和EMS中,无需堆砌NPU可存下TB级大模型,使NPU算力节省超50%。

算力卸载

算力卸载技术将KV相关的计算卸载至EMS中的CPU,模型计算在NPU中进行,实现AI推理吞吐量提升100%。

直面LLM难题,释放推理算力

随着LLM推理的飞速发展,LLM推理需求急速增加,但也面临多重难题。
  • 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
  • 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
  • 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。

华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。

  • EMS缓存多轮对话的历史KV Cache,历史KV Cache命中时无需重新做推理计算,通过以存代算,可提升推理吞吐,节省AI推理算力资源。
  • EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本。
注:本文内容参考华为云官方,版权归作者所有