弹性内存存储 EMS｜以存代算，降低推理时延迟

发布时间：2025-08-07

AI场景中的3大存力痛点

持久化存储性能不足

随着AI大模型和AI系统技术的迅速发展，传统的持久化存储介质已难以满足大模型训练和推理的高性能需求。

DRAM利用率

AI服务器上的DRAM资源按各类场景的需求配置，在LLM负载主导的场景中DRAM的整体利用率普遍偏低。

HBM内存墙

AI加速器（如GPU、NPU、TPU等）的HBM容量增长速度远落后于大模型存储需求的增长速度。

以存代算，降低推理时延迟

弹性内存存储（Elastic Memory Service，EMS）是一种以DRAM内存（动态随机存取存储器）为主要存储介质的云基础设施服务，为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理，将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中，通过以存代算，减少了冗余计算，提升推理吞吐量，大幅节省AI推理算力资源，同时可降低推理首Token时延（Time To First Token，TTFT），提升LLM推理对话体验。

以存代算

以存代算技术将多轮对话的历史KV Cache保存至EMS，在后续对话中直接重复使用，实现AI推理的首Token时延降低80%，降低端到端的推理成本。

显著扩展

显存扩展技术将模型分层存储在显存和EMS中，无需堆砌NPU可存下TB级大模型，使NPU算力节省超50%。

算力卸载

算力卸载技术将KV相关的计算卸载至EMS中的CPU，模型计算在NPU中进行，实现AI推理吞吐量提升100%。

直面LLM难题，释放推理算力

随着LLM推理的飞速发展，LLM推理需求急速增加，但也面临多重难题。

保持连贯性：受限于显存容量原因，多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。

推理吞吐性能低：LLM在线推理需要满足大量消费者用户同时使用，受限于AI显存内存墙瓶颈，单卡推理吞吐性能低，大量用户并发访问时时延高，导致用户需要部署大量AI推理算力资源，推理吞吐资源成本高。

推理延迟高：在大模型推理过程中，从输入指令到模型产生预测并输出内容的时间过高，严重影响用户体验，尤其是和智能助手进行多轮对话时。

华为云通过EMS加速推理业务，提升推理业务吞吐，降低推理时延，降低推理资源部署成本。

EMS缓存多轮对话的历史KV Cache，历史KV Cache命中时无需重新做推理计算，通过以存代算，可提升推理吞吐，节省AI推理算力资源。
EMS采用半托管融合部署，EMS数据面部署在AI节点本地，高效纳管AI节点空闲内存资源，提供加速服务、降低存储成本。

注：本文内容参考华为云官方，版权归作者所有

上一篇：政务云数智升级，华为云Stack全面领航中国数字政府市场下一篇：告别测试遗漏与低效！华为云Stack打造软件质量“全栈卫士”

返回列表