DCI不再是配角:AI Capex里的10x机会
- BedRock

- 5月18日
- 讀畢需時 8 分鐘
已更新:7小时前
DCI 的角色已经变了。一旦算力不再被塞进一个数据中心,需求就不会只跟用户数走,而会被节点数量、单连接带宽和拓扑层级一起放大。
GPU、HBM、液冷、电力更容易被看到,因为它们都在机房里面。等模型跑成基础设施,瓶颈会一路往外冒:一个机房不够,就变成一个园区;一个园区不够,就变成多个数据中心;容量、电力、散热、土地、延迟、数据合规都会变成硬约束。到那一步,连接本身就不再是配套设施,而是决定算力能不能被组织起来的基础层。

Cloud 1.0:DCI 还是管道
Cloud 1.0 时代,数据中心互联干的是比较朴素的活:把少数大型数据中心、灾备中心、CDN 节点和企业接入连起来。
用户访问网页、视频、SaaS,主要是从云到用户的下行流量。计算集中在少数 super hubs,比如北弗吉尼亚、俄勒冈、硅谷、达拉斯这类大型数据中心集群。网络拓扑更接近 hub-and-spoke:中心节点很强,边缘节点服务用户,数据中心之间有同步、备份和容灾,但大多数业务不需要把多个数据中心当作一个实时计算系统来用。
那时的 DCI 增长更像:
DCI Traffic ≈ Users × Average Consumption × Replication
用户更多、视频更高清、SaaS 更普及,流量自然增长。但它的逻辑仍然比较线性。更多用户通常意味着更多出口带宽、更多缓存、更多区域副本,而不是每新增一批节点就重写一次网络层级。
别拿互联网流量简单类比
最自然的类比当然是互联网。互联网也经历过流量爆炸:网页、图片、视频、直播、短视频,每一轮应用升级都会推高带宽需求。
但 token 流量和互联网流量有一个硬差别:互联网流量的终点主要是人类注意力,token 的终点越来越多是机器循环。 人看视频、刷 feed、打字提问,都有时间上限;agent 读文档、检索、调用工具、写代码、跑测试、修错,可以持续运行。
互联网流量更像内容分发。同一段视频可以被缓存,同一张图片可以被 CDN 复用,热门内容的流量虽然大,但相对可预测。token 更像计算过程。用户换一种 prompt 写法,打开 thinking,塞进长文档,把聊天变成多步 agent,背后的计算量可能立刻变成几倍、十几倍,甚至更多。
更麻烦的不是“AI 涨价”,而是 token 用量突然上台阶。 供应商涨价至少有合同周期和提前通知;token 用量暴涨往往来自用户行为变化:员工突然学会一个新 prompt,用上 agent,把 100 页 PDF 塞进上下文,或者把检索深度从几条拉到几十条。

图:token 暴涨不是一个开关,而是几个用法叠加 Agent 化 从单轮聊天,变成多步执行和自我修正 Thinking 推理过程更长,单次请求计算量上移 长文档 上下文从几段文字变成整份 PDF / repo RAG 深化 检索 chunk 更多,召回和重排更复杂 免费入口 助手成瘾后,使用频次被重新打开
这些倍数不用当作精确预测。麻烦在于叠加:单个变化可控,叠在一起就会让预算、网络和算力规划失真。
一次请求,背后是一串工作
模型进来以后,这套账就不一样了。
表面上看,用户只是问了一句话。背后可能已经变成一组工作:模型路由、RAG 检索、工具调用、代码执行、结果校验、多 agent 协作、上下文压缩、KV cache 管理,甚至多个模型互相调用。
过去 token 是给人看的。人读得慢,打字也慢,消费速度天然有上限。现在 token 越来越多是给 agent 用的。agent 可以持续读文件、写代码、跑测试、修错、再读上下文、再执行下一步。人类的速度不再是 token 消费的天花板,机器循环才是。
网络压力也跟着换了形态:从“用户访问服务”,变成“机器之间持续协同”。原来的公式不够用了:
DCI Pressure ≈ Users × Models × Agents × Context/Memory × Coordination × Geography


用户数增长是一层。每个用户背后调用多个模型,是第二层。一个任务拆给多个 agent,是第三层。长上下文、KV cache、外部记忆和并行存储,是第四层。训练、推理、模型同步、checkpoint transfer、缓存迁移、跨区域容灾,是第五层。再叠加地理分布,DCI 的压力就不再是线性曲线。
第一层:节点变多
这一轮数据中心不会只剩少数超大中心。
这里要先把训练和推理分开。训练更适合中心化,因为它不在乎离终端用户有多近。训练当然极度在乎集群内部 GPU 之间的低延迟和高带宽,但它不是在线服务,不需要把模型部署到每个城市去等待用户请求。只要电力、散热、土地、网络和运维能支撑,训练会自然集中到少数超大集群。
推理不一样。推理是线上服务,时延、首 token 返回速度、数据驻留、企业专网接入和区域可用性都会影响体验。越往 agentic AI 走,请求越长、交互越连续、工具调用越多,推理就越需要靠近用户和企业数据。所以推理节点数会显著多于训练节点数,DCI 的节点复杂度也会被推理侧拉起来。
训练:中心化
离用户远一点没关系,关键是 GPU 密度、电力、冷却、低延迟集群网络和稳定 job completion。
推理:边缘化 / 区域化
离用户和企业数据更近,降低时延、提升可用性,也更容易满足数据合规和专网接入。
于是网络里会出现更多层级: • 用户附近的边缘推理节点; • 城市或区域级 inference hub; • 大型 AI region; • 超大训练中心; • 多个数据中心之间的 scale-across 互联。
节点数量一多,就不是多拉几根线。如果 N 个节点完全互联,连接关系是 N(N-1)/2,天然是平方级增长。现实世界不会真的全互联,成本太高,云厂商会用分层拓扑降低复杂度:edge 到 regional hub,regional hub 到 hyperscale hub,AI hub 之间再横向连接。
但分层不等于需求消失。分层只是把需求重新组织。当节点数量跨过某个阈值,网络不会平滑扩容,而是会多出一整层。
这就是 topology jump:不是多几条线,而是多出一层网络。

第二层:每条连接变胖
节点数量是一个问题,单条连接的流量是另一个问题。
传统互联网里,一个用户请求通常对应一次内容访问。AI 里,一个用户请求可能对应多轮模型计算。尤其是 reasoning、MoE、multi-agent inference 这类负载,网络不只是把结果送回用户,还要在模型、缓存、存储、工具和不同计算资源之间不断搬运中间状态。
过去市场常说训练最吃网络,推理主要吃本地算力。这句话正在失效。推理如果只是单轮问答,确实更像本地计算;但推理一旦进入长上下文、多 agent、外部记忆和工具调用,通信就变成核心变量。
更准确的说法是:训练吃网络,复杂推理也开始吃网络。它吃的不是完全同一种网络,但都会把光互联、交换、路由、缓存和存储系统往更高带宽、更低尾延迟、更稳定 job completion 的方向推。
所以 400G、800G、1.6T、coherent optics、CPO、OCS 这些词会同时出现在这一轮基础设施讨论里。它们不是孤立技术名词,而是同一个压力的不同出口:数据要在更短时间里,穿过更大的系统。

第三层:拓扑会跳变
严格说,DCI 指的是数据中心之间的互联;leaf-spine、super-spine 更多是数据中心内部或园区网络架构。这点要讲清楚,否则容易把产业链讲混。
但 AI 的压力会从内部网络一路传导到 DCI。
第一步是单集群内部的 scale-up 和 scale-out。GPU 数量变多,东西向流量上升,leaf-spine 需要更高 radix、更高端口速率、更强拥塞控制。
第二步是园区和近距离多楼宇互联。一个 campus 里多个机房要像一个资源池一样调度,光连接从 rack、row、hall 扩展到 building 之间。
第三步才轮到跨数据中心 DCI。电力、土地、散热、供应链和区域容量都会限制单点扩张,AI factory 不可能永远塞进一个建筑。多个数据中心要被连成一个更大的计算系统,网络开始承担距离、延迟、抖动、拥塞控制和可预测吞吐。
NVIDIA 2025 年提出的 Spectrum-XGS,把这个方向叫 scale-across:在 scale-up、scale-out 之外,把分布在不同地点的数据中心连成一个更大的 AI factory。这句话背后的变化很大:网络问题已经从“机房内怎么连 GPU”,延伸到“多个数据中心能不能共同完成一个任务”。

走到这一步,DCI 就不是每年多一点流量,而是网络角色变了。
先看总量
这一轮 DCI 最关键的信号,不在单点新闻里,而在预算池本身。AI capex 已经变成一个足够大的实物资本开支池。
GPU 是最显性的支出,电力、液冷和机房是第二层,网络和光互联往往更晚被市场看见。等算力跨出单个机房,DCI 就从“有就行”的连接,变成“能不能把算力组织起来”的基础层。
只要 DCI 在 AI capex 里的占比从 1% 抬到 2% 多,乘上今天这个 AI capex 池子,绝对金额已经很惊人。这也是为什么我们更关心总量斜率,而不是某个季度的单点噪音。
这可能是一个 10x 量级机会
节点变多、单连接变胖、拓扑跳变,最后都要落到预算池上。
按我们现在的粗框架,DCI 系统总市场收入大约从 2025 年 50 亿美元,走到 2026 年 117 亿、2027 年 215 亿、2028 年 339 亿、2029 年 487 亿,2038 年到 824 亿美元。2025 到 2029 年是最陡的一段,后面进入更长周期的复合增长。
占 AI capex 的比例更关键。2025 到 2026 年,DCI 大约只是 AI capex 的 1%。到 2028 年接近 1.8%,2029 年 2.2%,2038 年到 3.0%。比例看起来只多了两个点,但底层 AI capex 池子本身在变大,这两个点就是几十亿美元到上百亿美元的预算迁移。

2026-2029 为逐年 YoY;2038 为 2029-2038 CAGR。
这就回到标题:DCI 不再是配件,它可能是 AI Capex 里一个接近 10x 的机会。从 2025 年 50 亿美元到 2029 年 487 亿美元,占 AI capex 的比例从 1.0% 到 2.2%。这个量级已经足够大,不需要再拆到单家公司去证明它重要。
这里不是押一个器件涨价,而是看 AI capex 结构里网络和光互联的权重上升。GPU 是第一波,电力和冷却是第二波,网络/光互联正在成为下一波约束。只要这条预算迁移成立,后面重估的就不只是收入,还有 ASP、产能和利润率。
别把这轮需求看小了
这轮 DCI 不缺需求,关键是先在哪一层爆出来。
第一波大概率不是跨洲长距离 backbone,而是 campus、metro、regional 这些近距离、高容量连接。原因很简单:云厂商会尽量把计算、数据和缓存放在合适的位置,减少无意义的跨区域搬运。但这不是看空 DCI,恰恰相反,DCI 的增量会先从最贴近 AI factory 的地方长出来。
也不要用“效率提升”把需求抹掉。互联网时代每 bit 成本持续下降,结果不是带宽需求消失,而是视频、直播、短视频把流量继续打上去。AI 也一样。模型和网络越便宜,越多任务会被扔给 agent。效率提升会降低单次调用成本,但会打开更多原本不会发生的调用。
更该盯的不是“某个光模块今天涨不涨价”,而是这些更底层的斜率有没有继续变陡:
• 复杂推理和 agent 的 token 使用强度有没有继续上升;
• 训练和推理是否越来越需要跨集群、跨园区、跨区域协同;
• 云厂商的 capex 是否继续从 GPU 扩散到网络、存储、电力和光互联;
• 800G、1.6T、coherent、CPO、OCS 的落地节奏有没有被真实订单验证;
• 交付周期和关键零部件短缺,是短期扰动,还是新一轮供给瓶颈。
最后看边界
别把 DCI 当成一条普通流量曲线。
更底层的变化是:计算正在变成分布式系统。模型越来越大,任务越来越长,agent 越来越多,推理越来越复杂,数据中心越来越受电力和物理空间限制。为了让这些分散资源像一个系统一样工作,网络必须从后台管道变成前台能力。
接下来要盯的,不是 DCI 会不会增长,而是算力什么时候跨过单点数据中心的物理边界。 一旦跨过去,新增需求就不是几条连接,而是一整层网络。
这才是这轮 DCI 最容易被低估的地方。




留言