智通财经APP获悉,广发证券近日发布研究报告指出,AI的记忆能力已成为实现上下文连续性、个性化体验及历史信息复用的核心技术支柱。通过不断扩展模型的能力边界,有望加速推动AI智能体等应用场景的落地进程。AI记忆的价值正从一项“成本项”转变为“资产项”,其上游基础设施的价值量与重要性将持续提升。建议关注产业链中核心受益的相关标的。
广发证券的主要观点如下:
英伟达推出AI推理上下文存储平台ICMS
随着用户多轮对话与智能体持续运行带来的KVCache数据不断累积,系统对需长期留存并可随时调取的分层缓存数据产生了刚性需求,推动了上下文数据从HBM存储向DRAM、SSD等分层介质迁移。为此,英伟达推出了上下文记忆存储架构ICMS,面向智能体与多轮推理场景提供“长期上下文记忆层”。该架构一方面能够承载更大规模的KVCache,另一方面能以低延迟将历史对话中的KVCache数据回溯到多个GPU节点,以支持多轮次推理会话。其KV访问模式呈现出类似TFT约束下的高并发、高吞吐随机读取特征。
ICMS平台对SSD使用效果显著
在经济性与扩展性方面,SSD的单位成本显著低于GPU内存,且可按TB、PB级容量灵活扩展,是承载长期上下文数据的天然介质。在可行性方面,据相关行业报告分析,ICMS引入PB级存储层后,其访问延迟仅略高于缓存化的DRAM。在实证方面,WEKA对其增强型内存网格解决方案(AMG)进行了性能评估。AMG是一种与英伟达ICMS兼容的上下文存储方案。测试在解码阶段模拟了持续扩张的用户场景池:初期用户池较小时,KVCache基本驻留在GPU的HBM内,三种方案均能维持较高的Token吞吐量;但随着用户数持续增长,KVCache会外溢至更低层级的内存或存储介质,此时Token吞吐量开始下降。然而,WEKA AMG凭借更高的容量、更强的网络与高并发随机访问能力,能够更快地完成上下文数据的预取与回填,有效减少冷启动与阻塞现象,从而在用户池显著扩大后,仍能保持更高且更稳定的Token吞吐性能。相比其他两种传统方案,其吞吐量提升最高可达4倍,验证了ICMS架构能够有效承接长期上下文并维持系统吞吐稳定性。
ICMS平台打开存储市场空间
参考行业数据,该行对上下文存储空间需求进行了测算。单个Token所需存储空间约为504KB。若每个用户的上下文窗口为64000 Tokens,则对应存储需求约为30GB。考虑到提升用户体验,假设留存倍数为15倍。在上述假设下,支持10万规模用户/智能体的总存储需求约为45PB。这意味着,若要在具备强大对话历史记忆能力的大上下文模型上稳定支持10万量级的并发用户或智能体,所需的上下文存储规模将达到PB级别。
风险提示
AI产业发展以及市场需求不及预期;AI服务器出货量不及预期;国产厂商技术和产品进展不及预期。
