当AI的快世界,撞上现实的慢世界
- BedRock

- 5月11日
- 讀畢需時 14 分鐘
已更新:7小时前
我们对 AI 的能力曲线依然很乐观:模型更强,任务更长,AI 研发本身也开始被自动化。真正的问题是,现实世界能以多快速度接住它,把能力装进工作流,最后变成收入或成本改善。
2026 年 5 月 5 日 · BEDROCK AI memo
到 2026 年,AI 已经不缺宏大叙事,也不缺资本开支。BofA 把 hyperscaler 的 CY27 capex 路径画到 $1Tn;Google Cloud backlog 已到 $460B+;Microsoft AI 业务年化收入过 $37B。问题已经不是“AI 会不会继续投入”,而是现实世界能不能把这些投入变成真实生产力。
最近我们和一线 AI 工程师 BY(化名)聊了一次。他长期在 AI 产品化一线,谈到最多的不是模型榜单,而是 coding agent、企业 AI 和 physical AI 真正落地时会遇到什么。再对照 Anthropic 联合创始人、Import AI 作者 Jack Clark 对 AI 研发自动化的公开数据整理,以及 BEDROCK 对 capex、backlog、memory、optical、semicap 的持续跟踪,看到的是同一件事的两面。BEDROCK 的核心判断是:AI 的壁垒正在从“模型有多聪明”,上移到“模型被怎样装进真实工作”。
一面是 AI 的快世界:能力曲线继续变陡,AI 研发本身开始被自动化,任务跨度可能继续拉长。另一面是现实的慢世界:能力进入真实组织之后,会撞上工作流、反馈、数据、验收和责任链。我们真正关心的是两者的交汇处:能力继续变强,但生产力不会自动发生。
IAI 的快世界:能力曲线确实很陡
先从模型层说起。OpenAI 的 Codex 和 Anthropic 的 Claude Code,到底差多久?表面是两个产品的比较,背后是一个更大的问题:模型层还能形成多久的壁垒。
BY 的判断很直接:“现在这个时代没有差一年的。按马斯克的节奏,也就两个月;务实一点说,大概四个月。”这句话的重点不是精确到几个月,而是时间单位变了。模型层仍然重要,但很难再靠一两年的代差形成长期壁垒。
Jack Clark 在 Import AI 455 里给过一组更直观的数据:SWE-Bench 从 2023 年底的 2%,走到 2026 年中的 93.9%;CORE-Bench 这类 AI 研发任务也在快速上行。单看某一个 benchmark 可能有噪音,但多个任务面一起被打穿,说明前沿能力还在继续进步,公开能力的扩散速度也越来越快。

Jack Clark 原图:CORE-Bench 这类 AI 研发任务也在快速上行。重点不是某一个 benchmark,而是模型能力扩散正在发生在多个任务面上这是快世界最强的证据:模型能力不只是在聊天、写代码、做题上进步,也开始进入 AI 研发本身。复现实验、优化训练代码、跑 benchmark,这些事情反馈更短,一旦 agent 能稳定参与,能力曲线可能继续变陡。
这不是说模型公司没有价值。领先者真正花时间的地方,常常不是最后那个分数,而是前面大量试错:数据怎么洗、agent loop 怎么跑、工具怎么接、失败怎么恢复、用户怎么验收。等 recipe 被行业看懂,后来者追模型会更快;但真正进入工作流的经验,不会同样快地复制。
快世界不只是模型分数。更重要的是,agent 正在改变工作循环本身:人不再每一步都卡在 loop 里,机器开始自己跑循环。换句话说,AI 开始把工作从人速推向机器速。
IIAgent:人从执行者变成管理者
Agent 和 chatbot 最大的差别,不是回答更长,而是人不再卡在每一个 loop 里。Copilot / Chat 时代,人要不断 prompt、read、再 prompt;agent 时代,人定义目标,agent 自己拆任务、调用工具、检查结果,最后跑到一个可验收的结果。

Coatue:从 Copilot / Chat 到 Agent,关键变化是 human required in every loop 变成 human becomes the manager这张图好在,它没有把 agent 讲成一个更聪明的聊天框,而是讲成劳动组织方式的变化。所谓 labor is no longer human-limited,不是人不重要了,而是人的瓶颈从执行转到管理:定义目标、设置边界、验收结果。图里“1 analyst helping you”到“1,000 analysts working 24/7”当然有夸张成分,但方向是对的:工作不再完全受制于人的打字速度和 check-in 频率。
也正因为这样,agent 的变化会同时落在两张账上:一张是生产力账,一张是基础设施账。工作循环从人速变成机器速,token、上下文、测试、工具调用都会被放大。有个代表性细节:Anthropic 现在的 compute 紧张程度,比一年前更紧,不是更松。
原因不只是用户多了。token 消费模式本身变了:
以前 token 是给人看的——你打字多快,模型就生成多快,反正你看不过来。
现在 token 是给 agent 用的——agent 是 relentless 的,它可以一直跑。
这句话解释了很多账。一个 coding agent 做真实任务,会持续读文件(一个中型项目几万行代码就是几十万 token)、写代码、跑测试、修错、总结、再读上下文。复杂任务消耗几百万 token 不稀奇;chat 时代一次对话通常只有几千到几万 token。所以 $200/月订阅对重度 agent 用户其实是补贴,真实推理成本可能是几倍甚至十几倍。另一边,长期运行的 agent 需要记忆、上下文、调度和工具调用,负载也会从 GPU 扩散到 memory、CPU、storage 和网络。
所以,更直观的不是“用户数”,而是 token 曲线。Coatue 估算 OpenAI + Anthropic + Gemini API 的年化 token,从 2023 年几乎贴地,拉到 2025 年底约 16.4K trillion,并在 2026 年继续上行。这里的重点不是精确到每个点,而是斜率:agent 把调用频次从人速推到机器速。

Coatue:API token 消耗已经从人类聊天速度,进入 agent 工作流驱动的更陡斜率这也解释了为什么 capex 还在继续上修。BofA 四月底报告给出的 CY27 hyperscaler capex 路径是 $1Tn,CY26 已经是 $700B+;Google 1Q26 财报披露 Cloud backlog 接近翻倍到 $460B+,Direct API Gemini token 16B/分钟、季度环比 +60%;Microsoft AI sales 年化 $37B+、同比 +123%。背后的逻辑并不复杂:agent 是 relentless 的,它持续吞 token,而 token 最后会落到硬件需求上。
再看负载结构:推理正在变得比训练更重。两年前业内估算训练占 AI compute 的 70-80%,推理 20-30%;现在很多 hyperscaler 的负载已经反过来。这个结构性变化对存储链尤其有意义:训练需要 HBM,推理也需要 HBM,但更需要 NAND/eSSD 来存 KV cache、模型 checkpoint、用户上下文。Citi 在四月报告里说 NAND CY26 ASP 同比 +172%、SSD 段位 +242%,这不像普通周期波动,更像 agent 时代的存储 TCO 重构。
我们更愿意把这轮 capex 看成“推理工厂”的扩建。Agent 把推理变成持续运行的工作负载。数据中心也会从“训练集群”继续演化成“训练 + 推理 + 存储 + 网络”的综合系统。GPU / ASIC 仍是核心,但瓶颈会同时扩散到 HBM、NAND / eSSD、数据中心网络、光通信、EDA 和测试。训练时代主要买的是峰值算力;agent 时代还要买上下文、缓存、调度、可靠性和低延迟。也就是说,capex 不是简单多买几张卡,而是在为更长任务、更高并发、更低错误率重做整套基础设施。
快世界的下一步,是任务上移。模型从做题、补全代码,走向更长、更完整的工作;但任务越往上,反馈也会越慢。
III任务上移:从 E4 到 E5
Coding agent 最容易把“模型能力”和“工作能力”分开观察。Meta 工程师 level 是一个好参照。
如果用 Meta 的工程师 level 来看,E3 是新人,E4 能独立交付 feature,E5 能拿一个独立项目往前推,E6 开始定义方向、带几个 E5。Google、Amazon 的 level 体系叫法不同,但含义接近。“现在 coding agent 的水平,我觉得是一个很高的 L4——强 E4,”BY 说,“但要跳到 E5,还有距离。”
从 E4 到 E5,不是智力差距。更准确的类比,是一个聪明人从学校进入职场:
你想象一个 MIT 顶尖的毕业生——智力已经在那了,他没在职场工作过。把他训练成 Facebook E5,靠的不是再做智力提升,而是 environment、instruction、长期反馈。
从 E4 到 E5,缺的不是 IQ,是职场训练。E5 要能主动判断该做什么,要记得项目历史,要理解业务约束,要对结果负责,还要有从大量反馈里磨出来的 taste。这些都不是 benchmark 分数能直接测出来的。

AI 已是强 E4,但跳到 E5 需要的不是更聪明,是更深的“职场训练”难点在于,项目级工作的反馈周期太长。一个 feature 写得对不对,几分钟就能验证;一个 project 的方向对不对,可能要等几个月。模型在长任务里也会“压缩”需求,把 100 个要求压成前 20 个重点,后面的细节慢慢丢掉。上下文窗口变长有帮助,但不能替代真实工作环境。
从 E4 到 E5,不能只等模型“再聪明一点”。需要外部记忆、任务追踪、文件规则、技能库、验证 checklist,也就是前面说的 harness。谁先把这套工作环境做扎实,谁就更可能定义下一代 coding agent。
Jack Clark 把这个问题推得更远。他在 Import AI 455 里判断,如果 AI 研发里的多个 benchmark 继续同时上行,recursive self-improvement 可能在 2028 前后变成真实情景。60% 这个概率可以打折看,但问题已经很具体:AI 能独立工作的任务跨度,到底在多快变长?

Jack Clark 对 AI 自动化 AI 研发时间表的公开判断。我们不把它当作结论,但 E5 / project-level 能力一旦被产品化,后面的时间表可能会明显前移METR(Model Evaluation & Threat Research)的任务时长指标更直接:AI 系统在一组任务上达到 50% 可靠性时,这些任务对应的“熟练人类完成时间”。

METR 数据:AI 任务时间跨度从 30 秒到 12 小时只用了 4 年。如果趋势延续,2026 年底可能到 100 小时(~两周连续工作),这正是 E5 / 真正 project-level 工作的时间尺度如果这条曲线延续,BY 说的“E4 到 E5 还有距离”,可能不是 3-5 年,而是 12-18 个月。Ajeya Cotra(METR 研究员)认为,2026 年底 AI 系统完成“100 小时人类工作”不是离谱假设。100 小时大概就是一个 E5 工程师拿到独立 project 后,从需求到 MVP 的时间尺度。Cursor、Devin、Codex CLI 这半年爆发,是在把“独立工作几个小时”的能力产品化;当任务时长从小时变成天、再变成周,产品形态还会变一次。
模型公司和云厂商继续加码,赌的是任务跨度跃迁。只要任务跨度真的从“几小时”推到“几天、几周”,AI 就不再只是一个 chatbot 订阅,而是在进入软件开发、数据分析、客服、内部运营,甚至 R&D 的劳动力替代和增强市场。今天很多推理成本看起来很贵,资本仍然愿意忍,是因为它押的是后面那层价值:当 AI 能稳定完成 project-level 工作,ARPU 和可服务市场都可能重新定价。

Joseph Jacks / OSS Capital 给出的激进情景:Anthropic ARR 到 2030 年达到 $2T。BEDROCK 不把它当作 base case,但这类数字代表了市场对“AI 劳动力平台”的想象力。我们不把这条 $2T ARR 路径当 base case。它把 Anthropic 的 run-rate ARR 和 Alphabet 的 GAAP revenue 放在同一张图里,本身就需要打折看;从算力供给、企业采购节奏、gross margin 到竞争格局,中间也有很多约束。但市场讨论这种数字,看的是“可自动化工作”的入口,而不是多卖一点 chatbot。云厂商今天的 capex 看起来像军备竞赛,本质上也是在买这个期权。
IV反馈环决定兑现顺序
任务跨度变长以后,下一层问题是:哪类工作能先转成生产力?答案通常不是“最宏大”的任务,而是反馈最短的任务。真正决定 AI 先在哪里变成生产力的是反馈环。
Coding 的反馈环天然短。模型写完代码,可以立刻编译、测试、运行、看 diff、看错误日志,几分钟内知道自己错在哪里,然后修。机器内部就能闭合“假设-验证”循环,不需要等用户、等市场、等老板。
反馈越短,AI 越容易进步,也越容易商业化。
很多企业场景慢,不是模型不够聪明,而是没有这么清楚、这么密的反馈。产品、战略、组织管理的反馈周期是周、月、季,噪音很大,归因也很难。

反馈环越短,AI 越早进入经营验证放到业务场景里,短反馈环的工作流会先跑出来:客户支持工单、SRE on-call、代码 review、合同模板填充、保险理赔初审。反馈很长的工作——市场战略、组织设计、长周期决策——AI 可以辅助,但要完全替代还很远。
AI 研发本身,可能就是反馈环最短的工作流之一。如果 AI 能参与训练代码优化、实验复现、benchmark 提升和模型微调,它得到的反馈不是几年后的组织结果,而是几分钟、几小时后的 loss、speedup、score。
Clark 在 Import AI 455 里列过一个很具体的例子:Anthropic 内部让 AI 优化 CPU-only 小型语言模型训练实现。过去一年,AI 从 2.9x 加速走到 52x;同类任务,人类研究员通常需要 4-8 小时才能做到 4x。这还不是“AI 已经会自己造 AI”,但最短反馈环会最先自我加速。
如果这条路径延续,模型迭代、harness 部署和算力需求都会被压缩时间表。AI 研发本身可能先进入自我加速,capex 也要换一种读法:不能只看训练需求,还要看 agent 推理需求。
下半场:现实的慢世界
到这里,快世界已经很清楚:模型在变强,agent 在把工作循环机器化,AI 研发本身也可能自我加速。真正的分歧不在“AI 会不会继续进步”,而在现实世界能不能接住这些进步。
V慢世界:同一个模型,为什么效果差很多
进入真实组织以后,问题就不再只是模型够不够聪明,而是这套能力由什么承载。Jack 讲的是能力斜率;我们更想知道,这条斜率撞到真实工作流时,哪些东西会变成壁垒。所以,落到公司层面,我们会更重视 harness。这个词中文不好翻,硬翻会别扭。其实可以简单理解成:模型进入工作现场时,外面那一整套工具、规则和验收机制。
最简单的区别是:你把同一个模型单独打开,让它回答“帮我改这段代码”,是一种效果;把它放进真实 repo 里,让它能读文件、跑测试、保留计划、失败后自己重试、最后把关键判断交还给人,就是另一种效果。前者是模型能力,后者才更接近工作能力。
AI 生产力不是模型自己“长出来”的,而是一层层叠出来的。底层是模型;往上是 harness,决定模型能不能稳定干活;再往上是场景数据,决定它知不知道“我们这里”怎么干;最上面是组织流程,决定它做出来的东西能不能被采用、被验收、进入 P&L。越往上,越接近真实 ROI,也越不容易被复制。

模型只是起点;真正难的是把它放进工作环境,并让结果进入业务这件事在软件历史里并不陌生。云计算不是靠某一台 VM 留住客户,而是靠存储、数据库、权限、监控、计费和运维流程绑在一起。数据库也不是 SQL 语法本身有多难迁移,而是业务系统、数据模型、报表和权限沉进去以后,迁移成本才变高。
AI 也是这个结构。真正有粘性的不是“用了哪家模型”,而是“模型被装进了什么环境”。代码风格、业务规则、权限体系、数据治理和验收标准,决定了模型能不能稳定产出。只是接一个外部 API,没有自己的 harness 和场景数据,最后很容易留不住价值。
VI能力增长,不等于收入增长
用 BEDROCK 的“快世界 / 慢世界”框架看,AI 内部是快世界,现实组织是慢世界。模型能力可以按周、按月迭代,但客户验收、预算审批、数据治理、组织流程、用户习惯,往往按季度甚至按年变化。
内部能力翻倍,不等于外部收入翻倍。外部世界接不住,能力会先卡在验收、流程和预算里。
Coding 离 AI 的快世界更近,反馈可以机器化验证。企业 AI、广告收入和 Physical AI 则要穿过现实的慢世界。AI 能力增长和收入增长之间,隔着一层现实摩擦。

能力提升发生在 AI 的快世界,收入验证经常卡在现实的慢世界VIIMeta:生产力先到成本端
AI 的快世界和现实的慢世界,最容易在 Meta 身上看清楚。如果 AI 把 Meta 工程师生产力翻倍,Meta 收入是不是也会翻倍?
关键在于:“Meta 在 AI 上面提高的模型能力,并不是 bottleneck by productivity. It is bottleneck by experiments that can run.” 换成业务语言就是:Meta 的瓶颈不在工程师能写多少代码,而在它一年能跑多少个真实的 A/B 实验。
Meta 卡在哪里?先卡在广告主预算的总盘子——市场就那么大,不会因为模型变聪明就突然多出来。也卡在用户注意力——每个人一天就 24 小时,AI 变不出来。
更关键的是实验容量。A/B test 需要真实流量、最低人群规模、足够时间;Meta 的总流量虽大,却要被几百个团队的几千个实验切分,真正能分给一个新功能的“实验份额”是有限的。再往后,还有产品体验阈值、隐私监管、反垄断诉讼和 TikTok 竞争。
在 Meta,AI 的影响会先体现在成本端。同样的人能跑更多项目,OpEx 受益,利润率先扩张。要影响收入端,需要 AI 真的造出新的产品形态、新的广告库存、新的付费意愿——而这些都是慢世界的事,周期可能是几年。这和 Meta 过去几个季度的披露也一致:capex 持续上修(2026 年 $125-145B),收入 growth 维持高个位数到 +15%,AI 真正在做的事是让运营效率上一个台阶,而不是让收入曲线突然陡峭起来。
VIII企业 AI:workflow 才是落点
硬件之外,企业端真正要改的是 workflow。很多公司一开始把问题问窄了:不是“买一个 GPT 接 API,让它替我做 X”,而是把工作流从“人主导”改成“AI 执行 + 人验收”。说到底,预算最终会流向 workflow 重构,而不是 API wrapper。
这不是买软件,而是改组织。公司要重新梳理流程,找出能被 AI 接管或加速的环节,建立自己的 skill 库、prompt 模板、知识库和工具调用规则,把重复工作交给 agent,再设计验收机制和 human oversight。Manager 的职责也会变:从管人,变成管目标、管系统、管验收。
这会分化出两类公司。第一类像咨询交付:帮客户梳理流程、接系统、做定制,收入可以增长,但每个项目都很重。第二类更像平台:把一次次部署里沉淀下来的工作流、数据 schema、权限规则和验收机制抽象成可复用产品。后者才更接近“把 AI 装进组织”的长期形态。
Palantir 是一个典型例子。它不一定拥有最强模型,但它有客户关系、数据系统、合规体系和私有部署能力。政府、军工、能源这类场景最难的不是接一个 API,而是让 AI 进入已有系统、权限和责任链。谁能完成这件事,谁就更接近真实生产力。
离软件反馈环越远,中间约束越多,AI 就越不能直接外推成生产力。Physical AI 是最典型的例子:模型能力只是其中一层,真正难的是系统集成。
IXPhysical AI:慢在系统集成
再往慢世界走一步,就到 Physical AI。对这一块,判断需要更克制:Optimus、Figure 这些公司进展很快,但智力侧(LLM 大脑)ready,不等于系统 ready。
所以问题不是“body ready 了吗”,而是:什么叫 body is ready?
Body is ready 是个伪命题。就算 brain 足够强,body 足够好,但集成不好就是表现很差。
Robotaxi 是更好理解的类比。它相对人形机器人,任务边界其实更窄:车只需要在道路上行驶,不需要开门、拿东西、爬楼梯。但安全性、长尾场景、监管和公众信任,把它牢牢拽进慢世界。2019 年 Tesla Autonomy Day 上,马斯克说 2020 年会有上百万辆 Tesla robotaxi;现实走到今天,robotaxi 的推进仍然是城市、区域、天气、监管一点点放开。这里的差距,不是一句“模型不够聪明”能解释的。
完美的视觉模型加完美的车,不等于自动驾驶。关键是 sensor、control、decision、safety 这一整套端到端集成。机器人也是一样:感知、控制、动作规划、反馈延迟、软硬件协同,任何一项掉链子,就算大脑再聪明都白搭。
这正是机器人学几十年来的“Moravec 悖论”——计算机能轻松做人类觉得难的事(下棋、解微积分),但人类觉得简单的事(拿起一个鸡蛋、走过一片不平地面)对机器人来说极其困难。
Boston Dynamics 从 1992 年成立到推出第一台商业化产品 Spot 是 2019 年,整整 27 年;Stretch 商业化是 2022 年。这不是因为团队不够强,是物理世界的复杂度本来就需要这么久。最近 Physical Intelligence、Figure、1X 这些新一代公司虽然 demo 看起来惊艳,但从 demo 到能在客户工厂稳定运行 1000 小时,中间的路径仍然漫长。
这不是看空 physical AI。集成一旦突破,进展会突然加速;但现在还没到可验证商业化阶段。和 coding 不同,机器人要同时解决身体、感知、控制、安全和场景数据,反馈也很慢。它会是大机会,但不是把 LLM 大脑装上去就结束。
最后回到 BEDROCK 的主判断:AI 的分析重心要上移。过去两年,我们很容易追着 benchmark 跑;但在 AI 的快世界撞上现实的慢世界之后,更该问的是三件事:反馈环有多短,堆栈有多深,组织能不能吃下去。模型分数会被追平,harness、场景数据、组织流程、客户关系不会那么快被追平。
所以,我们反而不太想纠结“AGI moment 是哪一天”。事实上,人类历史里,很少有技术以今天 AI 这样的速度,同时改写模型能力、软件开发、资本开支和组织流程。如果所谓 singularity 指的是能力曲线变陡、反馈环变短、生产方式被重新组织,那它不是某个未来日期,而是我们已经身处其中的状态。
No singulation, all singularity.
其实,我们不需要等待一个奇点时刻,因为已经身处其中。




留言