AI算力正经历结构性拐点,从早期训练的CPU/GPU配比1:8跃升至Agent阶段的1:2。随着英伟达Vera Rubin架构采用36:72的配置,算力系统投资重心已明确转向以通用算力为核心的基础设施。
为什么AI大模型从训练走向Agent阶段会推升CPU需求?
AI发展从早期单纯的模型训练转向复杂的Agent(智能体)应用,直接导致通用算力需求激增。在Agent阶段,系统需要处理大量的逻辑调度、内存管理和多步工具调用。这就像从“单纯建造工厂”转向“组建复杂的物流和管理网络”,主导统筹的CPU承担了远超以往的工作负载,导致CPU在整体算力结构中的占比大幅攀升。
AI发展阶段与算力配比结构演变
| 发展阶段 | 核心任务 | CPU/GPU配比 | 算力需求特征 |
|---|---|---|---|
| 早期训练阶段 | 模型数据吞吐与参数迭代 | 约 1:8 | 极度依赖GPU并发算力 |
| 推理阶段 | 模型响应与数据检索 | 约 1:3 至 1:4 | 逻辑处理与缓存需求增加 |
| Agent阶段 | 多步推理、环境交互与执行 | 约 1:2 | 强依赖CPU进行复杂调度 |
英伟达Vera Rubin NVL72架构揭示了怎样的基础设施投资拐点?
英伟达发布的Vera Rubin NVL72系统明确配置了36颗CPU与72颗GPU,彻底打破了以往单一计算节点重GPU轻CPU的传统。这一官方硬件配置比例证实了异构计算中通用算力地位的提升,标志着AI算力基础设施投资重心向系统级均衡硬件转移的明确拐点。投资者应关注具备服务器整机制造与核心网络互联技术的底层基础设施企业。
常见问题
在AI算力集群采购中,CPU/GPU配比提升如何影响服务器的整体成本结构?
随着CPU/GPU配比从1:8向1:2提升,单台AI服务器中通用计算芯片及相关主板、内存组件的成本占比将显著增加。预算分配中CPU及周边组件的采购比重预计提升30%至50%,企业需重新评估算力基础设施的硬件预算结构。
为什么早期的AI训练集群不需要如此高的CPU/GPU算力配比?
早期AI模型训练主要是密集的矩阵乘法运算,任务高度单一且流水线化。这类纯粹的模型训练过程极少涉及复杂的逻辑分支判断与外部工具调度,主要由GPU进行大规模并行计算,因此对负责统筹管理的CPU算力需求极低。
面对Agent时代的算力拐点,算力投资者应重点关注哪些基础设施赛道?
投资者应重点关注支持高吞吐量数据调度的DPU/IPU芯片、支持大规模扩展的异构计算整机柜制造,以及低延迟无损网络通信设备。在1:2的配比趋势下,支持庞大CPU集群互联的高带宽网络设备需求预计将实现40%以上的强劲增长。