DCI不再是配角：AI Capex里的10x机会

BedRock
5月18日
讀畢需時 7 分鐘

GPU、HBM、液冷、电力更容易被看到，因为它们都在机房里面。等模型跑成基础设施，瓶颈会一路往外冒：一个机房不够，就变成一个园区；一个园区不够，就变成多个数据中心；容量、电力、散热、土地、延迟、数据合规都会变成硬约束。到那一步，连接本身就不再是配套设施，而是决定算力能不能被组织起来的基础层。

Cloud 1.0 时代，数据中心互联干的是比较朴素的活：把少数大型数据中心、灾备中心、CDN 节点和企业接入连起来。

用户访问网页、视频、SaaS，主要是从云到用户的下行流量。计算集中在少数 super hubs，比如北弗吉尼亚、俄勒冈、硅谷、达拉斯这类大型数据中心集群。网络拓扑更接近 hub-and-spoke：中心节点很强，边缘节点服务用户，数据中心之间有同步、备份和容灾，但大多数业务不需要把多个数据中心当作一个实时计算系统来用。

那时的 DCI 增长更像：

用户更多、视频更高清、SaaS 更普及，流量自然增长。但它的逻辑仍然比较线性。更多用户通常意味着更多出口带宽、更多缓存、更多区域副本，而不是每新增一批节点就重写一次网络层级。

最自然的类比当然是互联网。互联网也经历过流量爆炸：网页、图片、视频、直播、短视频，每一轮应用升级都会推高带宽需求。

但 token 流量和互联网流量有一个硬差别：互联网流量的终点主要是人类注意力，token 的终点越来越多是机器循环。人看视频、刷 feed、打字提问，都有时间上限；agent 读文档、检索、调用工具、写代码、跑测试、修错，可以持续运行。

互联网流量更像内容分发。同一段视频可以被缓存，同一张图片可以被 CDN 复用，热门内容的流量虽然大，但相对可预测。token 更像计算过程。用户换一种 prompt 写法，打开 thinking，塞进长文档，把聊天变成多步 agent，背后的计算量可能立刻变成几倍、十几倍，甚至更多。

这些倍数不用当作精确预测。麻烦在于叠加：单个变化可控，叠在一起就会让预算、网络和算力规划失真。

模型进来以后，这套账就不一样了。

表面上看，用户只是问了一句话。背后可能已经变成一组工作：模型路由、RAG 检索、工具调用、代码执行、结果校验、多 agent 协作、上下文压缩、KV cache 管理，甚至多个模型互相调用。

过去 token 是给人看的。人读得慢，打字也慢，消费速度天然有上限。现在 token 越来越多是给 agent 用的。agent 可以持续读文件、写代码、跑测试、修错、再读上下文、再执行下一步。人类的速度不再是 token 消费的天花板，机器循环才是。

网络压力也跟着换了形态：从“用户访问服务”，变成“机器之间持续协同”。原来的公式不够用了：

用户数增长是一层。每个用户背后调用多个模型，是第二层。一个任务拆给多个 agent，是第三层。长上下文、KV cache、外部记忆和并行存储，是第四层。训练、推理、模型同步、checkpoint transfer、缓存迁移、跨区域容灾，是第五层。再叠加地理分布，DCI 的压力就不再是线性曲线。

这一轮数据中心不会只剩少数超大中心。

这里要先把训练和推理分开。训练更适合中心化，因为它不在乎离终端用户有多近。训练当然极度在乎集群内部 GPU 之间的低延迟和高带宽，但它不是在线服务，不需要把模型部署到每个城市去等待用户请求。只要电力、散热、土地、网络和运维能支撑，训练会自然集中到少数超大集群。

推理不一样。推理是线上服务，时延、首 token 返回速度、数据驻留、企业专网接入和区域可用性都会影响体验。越往 agentic AI 走，请求越长、交互越连续、工具调用越多，推理就越需要靠近用户和企业数据。所以推理节点数会显著多于训练节点数，DCI 的节点复杂度也会被推理侧拉起来。

于是网络里会出现更多层级：

节点数量一多，就不是多拉几根线。如果 N 个节点完全互联，连接关系是 N(N-1)/2，天然是平方级增长。现实世界不会真的全互联，成本太高，云厂商会用分层拓扑降低复杂度：edge 到 regional hub，regional hub 到 hyperscale hub，AI hub 之间再横向连接。

但分层不等于需求消失。分层只是把需求重新组织。当节点数量跨过某个阈值，网络不会平滑扩容，而是会多出一整层。

这就是 topology jump：不是多几条线，而是多出一层网络。

节点数量是一个问题，单条连接的流量是另一个问题。

传统互联网里，一个用户请求通常对应一次内容访问。AI 里，一个用户请求可能对应多轮模型计算。尤其是 reasoning、MoE、multi-agent inference 这类负载，网络不只是把结果送回用户，还要在模型、缓存、存储、工具和不同计算资源之间不断搬运中间状态。

过去市场常说训练最吃网络，推理主要吃本地算力。这句话正在失效。推理如果只是单轮问答，确实更像本地计算；但推理一旦进入长上下文、多 agent、外部记忆和工具调用，通信就变成核心变量。

更准确的说法是：训练吃网络，复杂推理也开始吃网络。它吃的不是完全同一种网络，但都会把光互联、交换、路由、缓存和存储系统往更高带宽、更低尾延迟、更稳定 job completion 的方向推。

所以 400G、800G、1.6T、coherent optics、CPO、OCS 这些词会同时出现在这一轮基础设施讨论里。它们不是孤立技术名词，而是同一个压力的不同出口：数据要在更短时间里，穿过更大的系统。

严格说，DCI 指的是数据中心之间的互联；leaf-spine、super-spine 更多是数据中心内部或园区网络架构。这点要讲清楚，否则容易把产业链讲混。

但 AI 的压力会从内部网络一路传导到 DCI。

第一步是单集群内部的 scale-up 和 scale-out。GPU 数量变多，东西向流量上升，leaf-spine 需要更高 radix、更高端口速率、更强拥塞控制。

第二步是园区和近距离多楼宇互联。一个 campus 里多个机房要像一个资源池一样调度，光连接从 rack、row、hall 扩展到 building 之间。

第三步才轮到跨数据中心 DCI。电力、土地、散热、供应链和区域容量都会限制单点扩张，AI factory 不可能永远塞进一个建筑。多个数据中心要被连成一个更大的计算系统，网络开始承担距离、延迟、抖动、拥塞控制和可预测吞吐。

NVIDIA 2025 年提出的 Spectrum-XGS，把这个方向叫 scale-across：在 scale-up、scale-out 之外，把分布在不同地点的数据中心连成一个更大的 AI factory。这句话背后的变化很大：网络问题已经从“机房内怎么连 GPU”，延伸到“多个数据中心能不能共同完成一个任务”。

走到这一步，DCI 就不是每年多一点流量，而是网络角色变了。

这一轮 DCI 最关键的信号，不在单点新闻里，而在预算池本身。AI capex 已经变成一个足够大的实物资本开支池。

GPU 是最显性的支出，电力、液冷和机房是第二层，网络和光互联往往更晚被市场看见。等算力跨出单个机房，DCI 就从“有就行”的连接，变成“能不能把算力组织起来”的基础层。

只要 DCI 在 AI capex 里的占比从 1% 抬到 2% 多，乘上今天这个 AI capex 池子，绝对金额已经很惊人。这也是为什么我们更关心总量斜率，而不是某个季度的单点噪音。

节点变多、单连接变胖、拓扑跳变，最后都要落到预算池上。

按我们现在的粗框架，DCI 系统总市场收入大约从 2025 年 50 亿美元，走到 2026 年 117 亿、2027 年 215 亿、2028 年 339 亿、2029 年 487 亿，2038 年到 824 亿美元。2025 到 2029 年是最陡的一段，后面进入更长周期的复合增长。

占 AI capex 的比例更关键。2025 到 2026 年，DCI 大约只是 AI capex 的 1%。到 2028 年接近 1.8%，2029 年 2.2%，2038 年到 3.0%。比例看起来只多了两个点，但底层 AI capex 池子本身在变大，这两个点就是几十亿美元到上百亿美元的预算迁移。

2026-2029 为逐年 YoY；2038 为 2029-2038 CAGR。

这就回到标题：DCI 不再是配件，它可能是 AI Capex 里一个接近 10x 的机会。从 2025 年 50 亿美元到 2029 年 487 亿美元，占 AI capex 的比例从 1.0% 到 2.2%。这个量级已经足够大，不需要再拆到单家公司去证明它重要。

这里不是押一个器件涨价，而是看 AI capex 结构里网络和光互联的权重上升。GPU 是第一波，电力和冷却是第二波，网络/光互联正在成为下一波约束。只要这条预算迁移成立，后面重估的就不只是收入，还有 ASP、产能和利润率。

这轮 DCI 不缺需求，关键是先在哪一层爆出来。

第一波大概率不是跨洲长距离 backbone，而是 campus、metro、regional 这些近距离、高容量连接。原因很简单：云厂商会尽量把计算、数据和缓存放在合适的位置，减少无意义的跨区域搬运。但这不是看空 DCI，恰恰相反，DCI 的增量会先从最贴近 AI factory 的地方长出来。

也不要用“效率提升”把需求抹掉。互联网时代每 bit 成本持续下降，结果不是带宽需求消失，而是视频、直播、短视频把流量继续打上去。AI 也一样。模型和网络越便宜，越多任务会被扔给 agent。效率提升会降低单次调用成本，但会打开更多原本不会发生的调用。

更该盯的不是“某个光模块今天涨不涨价”，而是这些更底层的斜率有没有继续变陡：

别把 DCI 当成一条普通流量曲线。

更底层的变化是：计算正在变成分布式系统。模型越来越大，任务越来越长，agent 越来越多，推理越来越复杂，数据中心越来越受电力和物理空间限制。为了让这些分散资源像一个系统一样工作，网络必须从后台管道变成前台能力。

接下来要盯的，不是 DCI 会不会增长，而是算力什么时候跨过单点数据中心的物理边界。一旦跨过去，新增需求就不是几条连接，而是一整层网络。

这才是这轮 DCI 最容易被低估的地方。

BR Partners

DCI不再是配角：AI Capex里的10x机会

最新文章

留言