AI周报 2026-W18
2026-5-2
| 2026-5-3
字数 12931阅读时长 33 分钟
type
Post
status
Published
date
May 2, 2026 09:21
slug
ai-weekly-2026-W18
summary
如果要为 2026 年第 18 周挑一句话作为总结,那是:模型差距在收敛,能力差距却在扩大,差距的来源已经从"prompt 怎么写"转移到"模型外那一层怎么搭"。Codex 一周之内完成从编码 Agent 到通用工作平台的跃迁、Karpathy 在 Sequoia Ascent 给 Software 3.0 提供哲学锚点、Lin et al. 用 AHE 论文给"harness engineering"正式命名,三件事在同一周共振;Anthropic 把 Claude Code 企业日均成本估算从 $6 翻倍到 $13、GitHub Copilot 切换到 usage-based 计费,则在定价端反向印证 harness 已经成为主要成本中心。 研究界并不甘只做产品的注脚——RecursiveMAS 把多 Agent 通讯从文本传递推到潜在空间递归,Berkeley GEPA 让 reflection LLM 读完整 rollout 重写 prompt 击败 GRPO 10 个百分点,Apple 与 Oracle 各自给多 Agent 系统装上可信度量,HiddenBench 在 ICML 2026 揭穿前沿模型在分布式任务上 70% 的失败率。同期,Latent Space、HuggingFace、Stratechery 三方信号汇聚成一条共识:训练算力之后,推理与评估正成为下一道结构性瓶颈,Meituan、NVIDIA、Salesforce、Amazon、Hippocratic AI、Meta 同周交出六篇推理优化论文,Anthropic 的成本翻倍则是给这场"inference inflection"贴上的价签。 OpenAI 与微软七年合作关系正式松绑,AWS Bedrock Managed Agents 同步登场,多云时代被合同条款写死;NVIDIA、OpenBMB、智谱、Oracle 在多模态 Agent 模型这条线一周齐发四枪;ZenBrain、AgentCore、ObjectGraph、Synthetic Computers 把 Agent 持久记忆问题摆上学术台面;Computer Use 借助 DeepSeek 的视觉接地、Browser Use Box 与 Cua 的沙箱基础设施,从 demo 走向工程化基础设施。这是一周里五条主线同时发声的少数时刻。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority
1

📊 本周概览

如果要为 2026 年第 18 周挑一句话作为总结,那是:模型差距在收敛,能力差距却在扩大,差距的来源已经从"prompt 怎么写"转移到"模型外那一层怎么搭"。Codex 一周之内完成从编码 Agent 到通用工作平台的跃迁、Karpathy 在 Sequoia Ascent 给 Software 3.0 提供哲学锚点、Lin et al. 用 AHE 论文给"harness engineering"正式命名,三件事在同一周共振;Anthropic 把 Claude Code 企业日均成本估算从 $6 翻倍到 $13、GitHub Copilot 切换到 usage-based 计费,则在定价端反向印证 harness 已经成为主要成本中心。
研究界并不甘只做产品的注脚——RecursiveMAS 把多 Agent 通讯从文本传递推到潜在空间递归,Berkeley GEPA 让 reflection LLM 读完整 rollout 重写 prompt 击败 GRPO 10 个百分点,Apple 与 Oracle 各自给多 Agent 系统装上可信度量,HiddenBench 在 ICML 2026 揭穿前沿模型在分布式任务上 70% 的失败率。同期,Latent Space、HuggingFace、Stratechery 三方信号汇聚成一条共识:训练算力之后,推理与评估正成为下一道结构性瓶颈,Meituan、NVIDIA、Salesforce、Amazon、Hippocratic AI、Meta 同周交出六篇推理优化论文,Anthropic 的成本翻倍则是给这场"inference inflection"贴上的价签。
OpenAI 与微软七年合作关系正式松绑,AWS Bedrock Managed Agents 同步登场,多云时代被合同条款写死;NVIDIA、OpenBMB、智谱、Oracle 在多模态 Agent 模型这条线一周齐发四枪;ZenBrain、AgentCore、ObjectGraph、Synthetic Computers 把 Agent 持久记忆问题摆上学术台面;Computer Use 借助 DeepSeek 的视觉接地、Browser Use Box 与 Cua 的沙箱基础设施,从 demo 走向工程化基础设施。这是一周里五条主线同时发声的少数时刻。

主题:Codex 大升级与 Agentic Harness Engineering 范式正式确立

如果要为 2026 年第 18 周挑一条最具分水岭意义的故事,那一定是这一句来自 OpenAI CEO 的简短推文:big upgrade for codex today! try it for non-coding computer work. 短短一句话宣告了 Codex 不再是"编码工具",而是 OpenAI 押注的下一代通用工作面。而几乎在同一周,arXiv 上出现的 Lin et al. 论文 Agentic Harness Engineering 第一次给这场行业转向起了一个学术名字——"harness 工程",并断言"prompt engineering 时代已经过去,harness engineering 时代刚刚开始"。Karpathy 在 Sequoia Ascent 上把这个时点命名为 Software 3.0 的转折点,Anthropic 把 Claude Code 的企业日均成本估算 从 $6 翻倍到 $13,GitHub 把 Copilot 全面切换为 usage-based 计费——产品、学术、定价三端的信号在同一周共振,确认了一件事:模型外那一层"prompt 编译 + 工具 + 文件系统 + 规划 + 记忆 + 可观测性"的 harness,正取代 prompt 本身成为 AI 工程师的核心工艺。
Codex 这次的升级不是单点功能的迭代,而是把整个产品的边界推到了"通用工作平台"。Aakash Gupta 的观察最直白——他打开 Codex 的角色选择器,看到 Engineering、Product、Finance、Marketing、Sales、Operations、Design、Data Science、Student 整整一排选项,"编码工具直接变成了工作工具"。他指出这是 OpenAI 在自家模型外面套一层 harness——文件访问、多步规划、工具调用、应用连接器,"Anthropic 用 Claude Code 先打过这个套路"。ChatGPT 当前 9 亿周活中只有 25% 是工作场景,Codex 就是冲着剩下那 25% 设计的承接面。具体功能层面,Computer Use 在同一典型 workflow 上跑快了 42%,能 构建完整 app、在浏览器中测试流程、自主点击界面、读取 console 与网络日志、迭代直到任务完成,整个 GUI 操作的速度"已经接近真人"。NicolasZu 的 demo 把这种能力推到极致:让 Codex 用 GPT-Image-2 生成 3D 编辑器 UI、循环迭代直到接近目标图、用 Browser Use 验证——这是 prompt + 模型组合无法直接产出的复合行为,必须由 harness 来调度。Emad Mostaque 评论这个版本时直接抛出了一句激进判断:"看起来 OpenAI 已经为 Codex 攻克了递归自我改进"——虽然夸张,但点出了关键变化:Codex 现在能在没有人类介入的中间步骤里持续推进。
这种"持续推进"的具体载体,就是 Codex CLI 0.128.0 新增的 /goal 命令。Simon Willison 的拆解很到位:/goal 实质上是一个内置版的 Ralph loop,让 Codex 自动循环执行直到目标完成或 token 预算耗尽,核心实现就是 goals/continuation.mdgoals/budget_limit.md 两个 prompt 模板,在每个 turn 结束时自动注入。这是一个看似朴素但意味深长的设计选择——OpenAI 把"自我循环"这件事不是塞进模型权重,而是塞进 harness 里,用文件级 prompt 模板和 budget 控制来管理。这恰好就是同一周发表的 AHE 论文 所描述的方法论核心:harness 本身是一个由可编辑组件组成的系统,可以独立于模型进行优化和演化。Lin et al. 让 AHE 自动迭代 10 轮,把 Terminal-Bench 2 的 pass@1 从 69.7% 推到 77.0%,超过了人工设计的 Codex-CLI(71.9%)和两个自演化基线 ACE(68.9%)与 TF-GRPO(72.3%)。更关键的是 ablation 结果——增益主要来自工具、中间件、长期记忆这三层,而单独优化 system prompt 反而会回归。这从实证角度敲死了一个判断:模型固定时,真正的杠杆已经从"怎么写 prompt"转移到"怎么编排模型外的整个执行环境"。AHE 在四个其他模型上还能转移 +5.1 到 +10.1 个百分点,并在 SWE-bench-verified 上节省 12% token——证明 harness 不是过拟合到某个模型的表层 trick,而是可迁移、可衡量的工程产物。
Karpathy 这周在 Sequoia Ascent 2026 的演讲 给这个范式提供了哲学锚点。他把 2025 年 12 月定位为"agentic 转折点"——编程的最小单位从"代码行"变成了"宏动作"。他提出 Software 3.0 的定义:上下文窗口是新的"程序"。在 配套的 fireside chat 中他给出更具体的图景:(1) MenuGen 案例——传统软件栈被 LLM 完全吞掉;(2) "用 .md skills 替代 .sh scripts";(3) "LLM 知识库——对非结构化数据进行计算"。这三条全部指向 harness 层,而非模型层。他还用"可验证性框架"解释为什么有些应用落地极快、有些极慢:domain 的可验证性 + 收入/TAM 决定了前沿实验室会把什么打包进 RL 训练分布——也就是说,harness 设计本身已经反向影响模型训练的 distribution。swyx 在 AIE EU 的闭幕演讲补充了实证侧的注脚——他用 openclaw、Devin、townai 三种 agent 把 aidotengineer 维持成一个服务百万开发者的"Tiny Team",并直言"coding agents 突破容器是今年的主旋律","你大概率没有努力到极限地把它们用在日常知识工作上"。
如果说 OpenAI 是这周的主角,那 Cursor 和 Cline 提供了"竞争对手如何同步演化"的对照。Cursor 团队把自家的 agent harness 形容成"让 Cursor 内的模型更快、更聪明、更省 token" 的中间层,并细致描述了他们如何测试改动、监控劣化、为不同模型定制——这是一种典型的"harness 即产品"心态。同一天他们推出 Cursor Security Review,把 PR 漏洞审查和定时扫描内置进 harness,再次印证 harness 边界的扩张方向是"垂直能力包"。alphabatcher 描述的 Cursor SDK 模式 更进一步抽象——"CI 失败 → agent 醒来 → 检查 repo → 修补 bug → 提 PR → 在 Cursor 中等人接手",IDE 不再是 agent 居住的地方,而是人检视 agent 的地方。Cline 在同一周宣布 花两个月把整个项目从头重写:原版 Cline 紧耦合到 IDE 语义,"演化 CLI 的 harness 痛苦不堪",新版本拆出 SDK + 插件架构,再在上面重建 CLI 和扩展。这是一个非常说明问题的细节——当一支团队愿意在 LLM 价格仍在快速下行时停产两个月做架构重写,他们押的不是模型,而是 harness 层的长期可演化性。Towards Data Science 的一篇分析 Why AI Engineers Are Moving Beyond LangChain to Native Agent Architectures 从另一侧给出佐证:高层框架在 demo 期加速很猛,但在生产中调试困难、可观测性差、定制受限——这些问题恰恰就是 AHE 论文中"observability-driven evolution"要解决的。
定价端的反向印证可能比产品端更有说服力。GitHub 把 Copilot 全面转为 usage-based billing,2026 年 6 月 1 日切换,按 token 计费(输入、输出、缓存),代码补全和 Next Edit Suggestions 仍免费——官方在解释中明确点出"反映了 agentic 使用模式带来的高计算成本"。Anthropic 这边更狠,把 Claude Code 企业日均成本估算从 $6 翻倍到 $13,主因是主力模型从 Sonnet 3.7 切到 Opus 4.7;按 $13/活跃日 折算每个开发者每月 $150–$250,Anthropic 增长负责人公开承认"现行订阅方案没有为当前用量设计"。这两件事放在一起说明 harness 不是免费午餐——/goal 自循环、Computer Use 浏览器操作、Browser Use 视觉验证全都是 token 密集型动作,模型外那层调度能力越强,单位任务的推理消耗就越高。Towards Data Science 的另一篇 Agentic AI: How to Save on Tokens 系统总结了语义缓存、上下文缓存、懒加载、模型路由、摘要压缩这些手法——可以理解为 harness 工程的"成本侧子学科"。Jason Brownlee 的 Effective Context Engineering for AI Agents 则把上下文工程拆成系统提示、动态注入、记忆管理、工具描述优化——本质上就是 harness 的"输入侧子学科"。Latent Space 那期 AINews: Agents for Everything Else 把这周的格局总结得很清爽:Codex 走知识工作,Claude 走创意工作(新增 Blender、Adobe 等创意工具连接),同时 GPT-5.5 在网络安全评估中与 Claude Mythos Preview 持平——模型层的差异在缩小,竞争已经全面外移到 harness。
社区端的项目流向也在反映同一个判断。本周 GitHub Trending 上 obra/superpowers 累计 175k 星,明确定位为"编码 Agent 的完整技能框架和软件开发方法论";mattpocock/skills 累计 52.7k 星,提供 TDD 循环、PRD 生成等可装载技能;github/awesome-copilot 累计 31.9k 星汇总自定义 agent/技能;ComposioHQ/awesome-codex-skills 累计 5.2k 星专门面向 Codex 技能。harness 的内部组件也在被独立项目化——gastownhall/beads 累计 22.2k 星专做"编码 Agent 持久化图记忆",1jehuang/jcode 累计 2.4k 星把内存占用做到 Claude Code 的 1/14,RooCodeInc/Roo-Code 累计 23.5k 星走 VS Code 多 agent 路线,warpdotdev/warp 累计 51.6k 星把 Claude Code/Codex 直接嵌进终端,luongnv89/claude-howto 累计 28.9k 星专做 Claude Code 视觉化指南。这些项目的共同点是:它们都不在改进模型,而是在改进模型外的那一层。Anthropic 工程师本周也释出 24 分钟的 Claude Code 进阶教学,主题集中在 prompt 结构化推理、隐藏 workflow、tool use、production-ready 技巧——同样全部在 harness 层。eng_khairallah1 公开宣称 用多 agent Claude 系统替换了一支四人团队,NoahKingJr 展示了 整个应用全部用 Claude Code 写出来的运行效果——这类案例之所以可行,靠的不是某次模型升级,而是 harness 层把规划、记忆、工具、可观测性堆到了"实际可用"的临界点。
把这些线索拢在一起,本周的图景非常清晰:模型差距正在收敛,能力差距却在放大,差距的来源已经从 prompt 转移到 harness。Codex 的 /goal、Computer Use 加速、角色选择器扩张是产品端宣告 harness 是商品;AHE 论文是学术端宣告 harness 是可优化对象;Cursor 与 Cline 的同期重写是工程端宣告 harness 是核心资产;Copilot 的计费切换和 Anthropic 的成本翻倍是市场端宣告 harness 是主要成本中心。Karpathy 的 ".md skills 替代 .sh scripts" 不只是一个修辞,而是一种新的工程文化的入口——下一阶段衡量一个 AI 工程师水平的指标,不再是"你 prompt 写得多巧",而是"你的 harness 能不能在十轮自动迭代后比原版强 7 个百分点、还能跨模型迁移、还能更省 token"。

主题:Multi-Agent 系统范式跃迁 — 潜在空间协作、轨迹学习、可信度量

本周多 Agent 领域的产出密度异常集中,不再是"又发布了一个 framework"的工程层面叠加,而是从底层通讯协议、训练信号到评估方法学三条赛道同步推进。一个隐含的共识正在浮现:把更多 LLM 串在一起从来不是终点,关键问题是 Agent 之间该传什么、奖励该怎么算、失败该怎么发现。本周的论文、博客与社区讨论,恰好沿着这三个问题给出了截然不同的回答。
最具冲击力的转向来自通讯协议本身。@omarsar0、@dair_ai 与 @askalphaxiv 在同一天近乎同步推介了 RecursiveMAS 这篇工作,三条独立推文的快速汇聚本身就说明了研究界的关注度。此前的多 Agent 系统几乎一律采用"agents pass full text messages between agents at every step"的串行接力模式,导致 token 膨胀、延迟累积、上下文稀释三重代价随 Agent 数量线性恶化。RecursiveMAS 把整个系统重新建模为一个递归计算过程,每个 Agent 相当于 RLM 的一层,通过 RecursiveLink 模块生成 latent thoughts、在异质 Agent 之间直接传递隐状态,只在最末端解码为文字。@askalphaxiv 给出了更准确的注解:"Recursion scales the whole agent system, not just one model"——递归不再只是单模型内部的深度增益,而是被外推到了 Agent 协作层。9 个跨领域 benchmark 上 8.3% 平均准确率提升、1.2~2.4× 推理加速、token 消耗下降 34.6%~75.6% 的数字,意味着多 Agent 系统的"通讯成本"第一次从工程问题变成了可优化的数学量。
但通讯协议的革新要起作用,还得回答一个老问题:Agent 该如何从协作经验中学习。Berkeley GEPA 给出的回答与主流 RL 路线背道而驰。@akshay_pachaar 的拆解直击痛点:每一条 rollout 大约是 5,000 token 的文档,里面有 reasoning steps、tool calls、compiler errors、judge rationales,而 GRPO 把这些全部压缩成 ±1 标量奖励——信息损失是天文级的。GEPA 选择"读"完整 rollout,让一个 reflection LLM 诊断失败、定位到具体模块、改写该模块的 prompt。同样的 base model、同样的任务,比 GRPO 高 10 个百分点,且无需 GPU。这种"权重变成 prompt、不透明变成可读"的范式,与本周 Apple 发布的 Reinforced Agent 形成了同向呼应——后者拒绝了 tool-calling agent 长期采用的 post-hoc 评估传统,转而把一个 reviewer agent 嵌进 inference-time loop,在执行前评判每一次 tentative tool call。Apple 的工作还引入了一对值得记下的度量:Helpfulness(feedback 修正了多少基准错误)和 Harmfulness(feedback 把多少正确答案改坏),并发现 reviewer 模型选择是临界变量:o3-mini 的 benefit-to-risk 是 3:1,GPT-4o 只有 2.1:1。BFCL irrelevance detection 上 +5.5%、Tau2-Bench 多轮任务上 +7.1% 的增益证明,inference-time 反馈不是 post-hoc evaluation 的廉价替代品,而是另一类训练信号。
奖励侧的另一条线索来自阿里/浙大的 JURY-RL。它针对的是 label-free RLVR 的根本困境——多数投票虽便宜却引入 false positive。JURY-RL 的设计哲学颇见匠心:"Votes Propose, Proofs Dispose",候选答案由投票产生,但奖励发放交给 Lean 形式验证器;当验证不确定时,Residual-Zero 机制丢弃未验证多数派、重新分布零均值信号。pass@1 与监督训练打平、pass@k 反而更强的实验结果,暗示形式验证可能是把 RL 推向真正"无标注"的下一个支点。GEPA 用语言反思替代标量、Apple 用 reviewer 替代后验、JURY-RL 用证明替代投票——三个工作不约而同在做同一件事:把训练信号从一维数值升级为带结构的判断。
判断结构一旦丰富起来,可观测性与可信度就成为下一个瓶颈。Oracle 的 GSAR 把 hallucination detection 从"二元判断"重构为四类 typed grounding——grounded、ungrounded、contradicted、complementary——并为每类证据分配差异化权重,最终输出一个不对称、施加矛盾惩罚的加权 grounded 分数,再耦合到 proceed/regenerate/replan 的三档决策。FEVER 数据集上 ΔS=+0.058 的提升只是表象,真正的方法学价值在于"evidence 不可互换"这条假设——它把过去那种把 retrieval 结果当作同质证据袋的天真做法终结了。论文使用 gpt-5.4、claude-sonnet-4-6、claude-opus-4-7 与 gemini-2.5-pro 四种 LLM judge 全部复现同方向 ablation 的设计,本身就是对多 Agent 评估方法的一次示范。
度量学之所以紧迫,是因为基准开始撕开多 Agent 系统真正的脆弱面。@YuxuanL_ 宣布 HiddenBench 被 ICML 2026 接收的同时透露了一组让人坐不住的数字:把前沿 LLM 关进一个房间,每个 Agent 只持有谜题的一部分,15 个模型平均 70% 的失败率。"Multi-agent is everywhere today"与"they fail 70% of the time"并置时,社区里习以为常的多 Agent 优势叙事就显得相当虚弱。微软研究院同一周发布的红队报告从另一面把这种脆弱性可视化:在 100+ Agent 组成的真实平台上,团队识别出四类只有交互态才会出现的网络级风险——恶意信息在 Agent 间传播窃取隐私、可信 Agent 被借用以放大虚假信息、验证机制被劫持反而强化错误(信任捕获)、信息经由无意识 Agent 链流转难以溯源(不可见性)。少数 Agent 的安全行为能限制扩散,但攻防仍然不对称。这份报告与 HiddenBench 共同把多 Agent 安全从"agent 个体的对齐"升级到"agent 网络的拓扑性质"。
更让 framework 流派难堪的是 In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks 这篇论文的反向证据。在 travel booking(14 节点)、Zoom support(14 节点)、insurance claims(55 节点)三个 procedural domain 上,每条件 200 conversation 的对照实验里,纯 in-context 方案在 5 分制下拿到 4.53–5.00,而 LangGraph 编排只有 4.17–4.84,且失败率分别是 24%、9%、17%(in-context 仅 11.5%、0.5%、5%)。作者的判断很克制——早期模型可能确实需要外部编排,但前沿模型的能力进展已经让 procedural multi-turn 不再需要它。这与上文 RecursiveMAS、GEPA 的方向异曲同工:多 Agent 系统的进步,不一定来自堆更多 LLM 与更精巧的 graph,而往往来自把"协调"内化进模型本身。
理论与基准的清算并不削弱工业落地的步伐,反而促使工程团队去寻找更系统的抽象。京东在 OxyGent 中提出了 Oxy 抽象——把 agent、tool、LLM、reasoning flow 统一封装为可插拔原子组件,OxyBank 负责自动数据回流与联合演化,runtime 用 permission-driven dynamic planning 取代刚性 workflow,全部 Apache 2.0 开源。快手的 Bian Que 则给出了一个对运维场景极具针对性的答案:把搜索/推荐/广告引擎的运维抽象为"发布拦截、主动巡检、告警根因"三大 pattern,Skill 颗粒度上声明所需数据与知识,可由 LLM 自动生成或 on-call 工程师精修;上线后告警量 -75%、根因准确率 80%、MTTR -50%、离线通过率 99.0%——这是迄今为止数字最硬的 Agent 工业部署案例之一。微软的 AutoSurfer 则攻入 web agent 的训练数据稀缺问题:BFS 探索策略生成轨迹、再用轨迹合成任务并指导 agent,把 Qwen2.5-VL-7B-Instruct 在 WebArena 上的 task completion 从此前 SOTA 的 19.59% 推到 24.23%。三家工业实验室的共同选择,是不再追求"通用多 Agent 框架",而是为特定场景定制可观测、可演化、可训练的系统——这与 OxyGent 论文标题中的 modular/observable/evolvable 三件套形成了同义反复。
社区开源生态在同一时刻仍然热闹。TauricResearch/TradingAgents(累计 60k 星)把 Fundamentals、Technical、News、Sentiment 四类分析师 + Research Manager + Trader + Portfolio Manager + Risk Management 编排成一个完整交易桌,@sharbel 的引用版本显示其支持 GPT-5.x/Gemini 3.x/Claude 4.x/Grok 4.x 全家桶以及 LangGraph checkpoint 续跑;中文化分支 hsliuping/TradingAgents-CN 也累计 25.2k 星。@RoundtableSpace 推出的 Sandcastle 让多个本地编码 agent 并行而互不干扰;@outsource_ 发布的 HermesAgent SWARM v2.1 把 Orchestrator Chat、Multi-Agent Control Plane、Kanban TaskBoard 整合为一个零人类介入的工作台;最具表演性质的当属 @seelffff 那个累计 88k 星的 147-Agent 开源 AI 公司,跨 12 个部门、一行命令部署。可视化编排平台 simstudioai/sim(累计 28.2k 星)与 OpenAI 官方的 openai-cs-agents-demo(累计 6.3k 星)则代表了 SDK 流派的延续。把这些项目放在 i14 那篇论文的镜面下看,会发现一个微妙张力:开源世界正在用 LangGraph 流派搭建越来越精细的 graph,而学术界正在论证 graph 在 procedural 任务上其实并无必要。这场张力大概率会推动新一代 framework 自我重构——不再以"工作流可视化"为卖点,而是以"协议、训练信号、度量"为卖点。
把通讯(RecursiveMAS)、训练(GEPA、Reinforced Agent、JURY-RL)、度量(GSAR、HiddenBench、微软红队)、抽象(OxyGent、Bian Que、AutoSurfer)四条线索并置,本周可以读出一个更清晰的转折:多 Agent 系统正在从"把更多 LLM 拼起来"的工程时代,过渡到"协议化、可学习、可观测"的系统工程时代。70% 失败率不是终点,而是这个新时代的起点。

主题:推理与评估成为新算力瓶颈

本周最值得记下的判断不是某个模型的发布,而是一组本来互不相关的信号在同一周里被对齐:训练算力之后,推理算力 + 评估算力正在成为下一道结构性瓶颈。Latent Space 把 Noam Brown、Sam Altman、Intel CEO、Jensen Huang 的零散表态拼成了一篇行业宣言,HuggingFace 用四位数美元的评估账单把这层判断量化,Dwarkesh、No Priors、TWIML AI 三档播客同周排出一张完整的工程认知地图,Meituan、NVIDIA、Salesforce、Amazon、Hippocratic AI、Meta 在同一窗口集中放出六篇推理优化论文——而把这一切翻译成钱的,是 Anthropic 在周末把 Claude Code 的单日成本估算从 $6 翻到 $13。
把这一周的行业讨论拉到最高处,The Inference Inflection 是基准坐标。Latent Space 在这篇综述里把 Noam Brown 关于 test-time compute、Sam Altman 关于"推理需求增速远超想象"、Intel CEO 关于 CPU 缺货、Jensen Huang 提出的"inference inflection"四方表态串成一条线:推理算力已经从训练的副产品变成战略资源,并且 GPU 之外的整条算力栈(CPU、内存、机架功率、prefill/decode 分离的硬件分工)都在被这股需求重塑。文章特别点出 CPU 短缺的"周期性 + 结构性"双重原因——疫情期间一次性采购的 CPU 进入更新窗口,而企业预算又被 GPU 挤占——这个细节解释了为什么本周 Intel Earnings, Intel's Differentiation, Whither Terafab 里 Intel 财报会"意外强劲":不是 PC 复苏,而是 AI 推理 + 边缘计算把 CPU 重新拉成了刚需。同一作者紧接着的 Amazon Earnings, Trainium and Commodity Markets 则从另一头切入:Trainium 在推理负载上的性价比,正在让"通用 GPU 包打天下"的假设失效,专用推理芯片开始具备商业化窗口。两篇财报解读共同指向一个供给侧分化——GPU、CPU、专用推理芯片各自吃下一块负载。供给侧的另一个回应是 Building the compute infrastructure for the Intelligence Age:OpenAI 把 Stargate 扩容写成官方表态,要的不只是训练 capacity,更是为推理时代储备数据中心和能源。
需求侧最锋利的一刀来自 HuggingFace 的 AI evals are becoming the new compute bottleneck。这篇文章的价值在于,它把"评估很贵"这件含糊的事钉在了具体数字上:HAL 基准跑 21,730 次 Agent rollout 花了约 $40,000,单次 GAIA 评估前沿模型可达 $2,829,而 Exgentic 在同一任务上发现不同 scaffold 之间成本差异高达 33×。更关键的是它指出静态基准还能靠压缩降本,但 Agent 基准的噪声和脚手架敏感性让它几乎无法压缩——这意味着评估成本会随着 Agent 化趋势指数级膨胀,最终可能超过训练成本本身。如果说 Latent Space 论证的是"推理算力会涨",HuggingFace 论证的就是"评估算力会涨得更狠",二者合起来构成本周行业判断的两块基石。
如果说博客层的讨论还在战略高度,本周三档播客把视角直接拉到工程车间。Reiner Pope – The math behind how LLMs are trained and served 是最硬核的一档:MatX CEO、前 Google TPU 架构师 Reiner Pope 在 Dwarkesh 的两小时黑板讲座里,从 batch size 与 cost/speed 的数学关系、MoE 在 GPU 机架上的物理布局、流水线并行的 bubble、RL 导致的过度训练,一直推到从 API 价格反推前沿模型长上下文内存成本——这种"从公开价格倒解 capex"的方法本身就说明,推理经济学已经稠密到值得逆向工程。Baseten CEO Tuhin Srivastava 在 Baseten CEO Tuhin Srivastava on the AI Inference Crunch 里给出的数字更直白:推理需求 30× 增长,他们已经横跨 18 个云、90 个集群部署,GPU 容量限制让长期合同动态发生根本变化,应用层最终会胜出,因为只有拥有独特用户信号的公司才能通过 workflow 和后训练定制模型把推理成本变成护城河。Philip Kiely 在 How to Engineer AI Inference Systems with Philip Kiely - #766 里则把这套工程师视角系统化为一组"旋钮":GPU 编程、batching、量化、speculative decoding、KV cache 复用,并对比 vLLM、SGLang、TensorRT-LLM 三大运行时——他的核心论点是"理解推理的旋钮才能设计出更好的产品和 SLA",这把推理工程从基础设施层抬到了产品设计层。三档播客的视角——架构师的数学、平台 CEO 的容量账、推理工程师的旋钮——共同传达的是同一件事:推理已经从"模型训练好后顺便部署一下"变成了一门独立的、需要专门工程师群体的学科。
工程层认知一旦确立,论文层的供给就会跟上——这一点在本周表现得近乎过分整齐。Meituan 的 DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training 解决的是 RL rollout 占整个 step 50–80% 时间的"长尾轨迹堵塞流水线"问题,通过多版本流式 rollout 在开源基准上拿下 2–3× 吞吐提升、在万级加速器的工业部署里相对同步训练做到 2–4× 加速,同时开源了 LongCat-Flash-Thinking。NVIDIA 自己本周也没缺席,Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding 把 speculative decoding 直接嵌入 NeMo-RL + vLLM 后端,8B 模型 rollout 吞吐 1.8×,并模拟出 235B 在 async RL + speculative decoding 组合下 2.5× 端到端加速——这是把 inference-time 优化反向用进 training pipeline 的典型操作。
MoE 这块同周出了两篇硬货。Hippocratic AI 的 RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts 指出生产系统只看 batch size 派发 kernel,留下了 10–70% 的吞吐没拿到,他们用一个四参数 wave cost model 在运行时根据专家激活直方图选最快配置,相对 exhaustive search 平均 regret 仅 0.93%,端到端在 vLLM 上对 Triton 拿下 1.30×。Georgia Tech 与 Meta 合作的 Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns 则在 Llama 4 Maverick、DeepSeek V3-671B、Qwen3-230B-A22B 上采集了 10 万+ 专家激活轨迹,发现 prefill 与 decode 激活强相关、专家热度按 domain 漂移,用 workload-aware micro-batch 分组把 all-to-all 通信砍掉 20%。系统层的另一极是 Salesforce 的 Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study,它把视角从单模型推理拉到 compound AI——多模型、多 retriever、多工具组合的生产系统。在 Agentforce 和 ApexGuru 上线后,他们做到 P95 尾延迟下降 50%+、吞吐提升 3.9×、成本节省 30–40%,并定义了三个 compound-system 特有问题:multi-model fan-out 开销、级联冷启动传播、异构 scaling 动态。Amazon 在 Breaking the Autoregressive Chain: Hyper-Parallel Decoding for Efficient LLM-Based Attribute Value Extraction 里走了更激进的一步:在 attribute-value extraction 这种条件独立任务上做位置 ID 操控、跨 batch 共享内存计算,单 prompt 并行解码 96 token,端到端成本下降 13.8×——这是把"推理优化"从通用 serving 推到 task-specific 的极端案例。社区工程层的回声同样及时:@pupposandro 演示的 Luce PFlash 用一个 Qwen3-0.6B drafter 在 prompt 上做重要性打分,让 27B 目标模型只 prefill "重要 span",128K prompt 在 RTX 3090 上从 llama.cpp 的 257 秒压到 24.8 秒、TTFT 提升约 10.4×,同时 NIAH 检索精度保持。
把整条叙事钉死的,是 @HedgieMarkets 周末曝出的一条:Anthropic 因 Opus 4.7 把 Claude Code 单日成本估算从 $6 翻到 $13。配文里还顺手列了 Uber CTO 年中就花光了全年 AI 预算、Goldman 报告称 inference 成本逼近 headcount parity、GPU 现货价上涨 48%——同样的工作量、价格直接 ×2,这是需求侧最坦诚的"成本结构变了"声明。把这条放回前面三层证据:行业判断说推理会涨,工程层说要靠 speculative decoding/MoE routing/compound system 把成本压回去,论文层一周交了六篇答卷——而 Anthropic 单日成本翻倍正是没等到这些优化普及时账面上的真实代价。供给侧加速优化、需求侧提前涨价,是同一枚硬币的两面。把这一周读完,最清晰的心智图是这样一条链:训练已经被资本充分定价,推理还在 inflection 早期;评估随 Agent 化指数级膨胀,是更隐蔽的下一座算力大山;MoE、speculative decoding、compound system、prefill/decode 分离这些过去散落的优化,正在被同一个经济压力拧成一根工程主轴;CPU 重生、Trainium 上位、Stargate 扩容则是供给侧对这股压力的三种回应。2026 年下半年,能定义行业节奏的不再是谁训练了更大的模型,而是谁把每一个 token 的成本砍得更深。

次要主题:OpenAI–Microsoft 合作大重置与 AWS Bedrock Managed Agents 登场

本周 AI 行业最具结构性意义的商业事件,是 OpenAI 与微软七年合作关系的正式松绑。OpenAI 在 The next phase of the Microsoft OpenAI partnership 中宣布合作协议被简化重写:微软放弃独家云权限,OpenAI 可向任何云服务商提供服务;微软的 IP 许可从独占改为非独占并延至 2032 年,收入分成与 AGI 实现脱钩。Stratechery 同步刊登了对 Sam Altman 与 AWS CEO Matt Garman 的联合访谈,揭示这一调整的直接产物——AWS 推出由 OpenAI 模型驱动的 Bedrock Managed Agents,让企业可以在 AWS 本地数据上构建合规的 Agent 工作流。Altman 在访谈中坦言 Azure 的独占性曾长期"损害 OpenAI 的增长",AWS 是优先合作方向,这与协议条款变化形成直接对应。
这段历史脉络由 Simon Willison 完整梳理在 Tracking the history of the now-deceased OpenAI Microsoft AGI clause:从 2019 年合作首次提及 AGI 条款、2024 年 The Information 报道关于 AGI 财务定义的争议、2025 年引入独立专家小组判定 AGI,到 2026 年这条引发七年争论的条款最终被废除。Willison 援引 Matt Levine 的总结道破玄机——一个曾被认为决定人类未来的条款,最终在两份新协议里被悄然删除。
供给侧也同步动作。OpenAI 在 Building the compute infrastructure for the Intelligence Age 中正式宣布 Stargate 项目扩容,解释了为何"多云"必须配上"自有基础设施":AGI 路径需要的不是单一云的算力上限,而是行业级的能源与数据中心容量。配套的 Cybersecurity in the Intelligence Age 则给出了 5 部分的安全行动计划,把"民主化 AI 防御 + 关键基础设施保护"放在企业级合作的前置条件上——这是和 AWS、和企业客户谈合规的语言基础。
微软并未在这次重置中失分。Satya Nadella 同周宣布 Agent 365 正式可用,把企业现有的身份、安全、治理、管理体系扩展到所有 AI Agent 及其交互。这一步与 OpenAI 解绑形成互补:微软的护城河不再依赖独占某个模型,而是依赖控制企业的 Agent 治理平面。结合本周 Codex 升级为通用工作平台、Anthropic Claude Code 成本翻倍这两条信号,模型层正快速商品化,而平台、治理、安全这一层正在成为新的价值锚点——OpenAI 选择释放云端绑定换市场宽度,微软选择从模型独占转向 Agent 治理,AWS 则把握住进入 OpenAI 生态的窗口期。多云时代不只是部署选项的多样化,更是 AI 商业版图的根本重画。

次要主题:多模态 Agent 模型集中爆发 — 全双工、原生音频与开源端侧

NVIDIA、OpenBMB/清华、智谱、Oracle 同周发布多模态/语音模型,主线已不再是"多堆一个模态",而是三件具体的事:全双工实时交互、原生音频输入、端侧高效部署。Agent 工作流是共同的目标——多模态感知不再是一个独立产品,而是 Agent 工作流上的一个加速齿轮。
NVIDIA 在 Nemotron 3 Nano Omni 官宣 中给出了"9× 更高效 AI Agent"这一关键卖点:30B 总参 / 3B 激活的 MoE 架构在视觉、音频、语言三个模态上统一推理,文档智能、视频与音频理解、agentic computer use 等 6 个榜单上保持领先;H Company 等企业客户已在 OSWorld 等 Agent 基准上验证显著提升。配套技术报告 Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 同步开源 BF16/FP8/FP4 三种精度权重和部分训练数据,并通过 SageMaker JumpStart 一键部署 让 131K 上下文 + 工具调用 + JSON 输出可以直接接入 Agent 工作流,本质上是把多模态感知降维成"减少 Agent 推理跳数和编排复杂度"的基础设施。
OpenBMB/清华团队的 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 则把目光放在交互范式本身。论文指出当前多模态 LLM 的瓶颈不再是模态覆盖度或延迟,而是范式:感知与响应仍然是交替阶段,模型大多反应式而非主动行为。它引入 Omni-Flow 把全模态输入输出对齐到共享时间轴,把传统 turn-based 交互转换为全双工时间对齐过程;模型可同时看、听、说,能在持续场景理解中主动发出提醒或评论。9B 总参在视觉语言能力上接近 Gemini 2.5 Flash,能在 12GB RAM 的边缘设备上做实时全双工——这不只是性能数字,更是把 Agent 从"被动响应工具"推向"主动观察者"的底层切换。
智谱端发布的 GLM-5V-Turbo 显式地把"真实世界 Agent"作为产品定位,紧扣多模态编码、GUI 自动化、视觉工具使用等 Agent 高频场景,与 NVIDIA 的"agentic computer use"叙事并行。Oracle AI Science 的 Au-M-ol 则在垂类深耕,三组件架构(音频编码器 + 适配层 + LLM)让医疗 ASR WER 降低 56%,证明把音频特征映射进 LLM 输入空间这条路径在专业领域可以打出非常陡峭的曲线。工程化指南也跟着到位:AWS 的 Migrating a text agent to a voice assistant with Amazon Nova 2 Sonic 系统地对比了文本 Agent 与语音 Agent 在响应设计、延迟预算、轮次管理、传输协议上的核心差异,强调语音 Agent 不是"叠加语音接口"那么简单——它需要短句、确认循环、低延迟流式传输和中断处理,否则文本时代的 Agent 一搬到语音端就破。把这些拼在一起看,多模态 Agent 模型这一周的共同主张已经很清楚:模态不再是产品独立维度,而是 Agent 行为能力的载体;不在端侧跑、不全双工、不被工程化迁移指南覆盖的多模态模型,对 Agent 工作流而言已经不算"完整发布"。

次要主题:Agent Memory 与文档格式架构创新 — 给 Agent 装上"持久脑"

研究界与开源社区本周同步推进 Agent 的长期记忆与文档原生格式,目标只有一个:把 Agent 从"上下文窗口即记忆"的束缚里解放出来。Zensation AI 的 ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture 把这条路径推到极致——15 个神经科学算法、7 层记忆(working、short-term、episodic、semantic、procedural、core、cross-context)和 6 个新的 Predictive Memory Architecture 组件(包括四通道神经调质引擎、预测误差门控的再巩固引擎、TripleCopyMemory 等)共同支撑一个完整的 Agent 记忆生命周期。15 算法消融揭示一个反直觉发现:在压力下 9/15 算法各自都成为关键,单独移除最关键算法时 ΔQ 跌幅高达 -93.7%。最有冲击力的是 LongMemEval 上的成绩:91.3% 接近 oracle 准确率,但只用 1/106 的 per-query token 预算——记忆架构带来的不只是质量提升,更是数量级的成本压缩。
工业实践侧把同一问题切成"namespace 设计"。AWS 在 Organizing Agents' memory at scale: Namespace design patterns in AgentCore Memory 里给出了与 Bedrock AgentCore 配套的层次结构、检索模式与 IAM 访问控制方案,从企业部署角度回应"多租户隔离 + 跨会话检索"这一痛点;这条路线相比 ZenBrain 更工程化,把 Agent 记忆的安全边界与组织结构直接绑定到云身份系统上。
记忆问题的另一面是文档格式。Open Gigantic 的 ObjectGraph: A Native File Format for the Agentic Era 提出一个根本性观点:Agent 不读文档——它们检索文档。把整篇文档塞进上下文窗口是"格式问题",不是 prompt 工程或压缩问题。ObjectGraph 是 Markdown 的严格超集(每个 .md 都是合法 .og 文件),把文档重构为类型化、有向的知识图,并附带 Progressive Disclosure Model、Role-Scoped Access Protocol 与 Executable Assertion Nodes 等原语。实证结果惊人:5 类文档 8 种 Agent 任务上 token 减少高达 95.3%,任务精度无统计显著退化。这是一种把"记忆/检索/上下文"问题从 Agent 内部推到文档格式本身的解决思路。
合成数据这条线则由 Microsoft 撑起。Synthetic Computers at Scale for Long-Horizon Productivity Simulation 用 1000 个合成计算机环境模拟长程生产力工作,每次运行平均超过 8 小时、跨越 2000+ 轮交互。Agent 在自己生成的目录结构和文档内容上做长时间研究、与模拟协作者沟通、产出真实可交付物——这本质上是一种为长期记忆和 agentic RL 准备的训练衬底,配套已在域内域外评测中显著提升 Agent 性能,作者明确指出有望扩展至百万级合成用户世界。社区与开源生态同步落地:Obsidian 创始人发布的 Skills 系统让 Claude Code、Codex、OpenCode 原生理解 wikilink、callout、canvas,RodmanAi 的解析 中提到该项目在数日内突破 27k GitHub 星——这是把"用户个人笔记仓库"直接变成 Agent 持久记忆。GitHub Trending 同步呈现了几条不同路线:memsearch(累计 1.4k 星)以 Markdown 为事实来源 + Milvus 影子索引,让多个主流编码 Agent 共享语义记忆;Beads(累计 22k 星)基于 Dolt 实现版本化图记忆,依赖感知地组织任务;Memori(累计 14k 星)则面向生产环境提供 LLM 无关的零配置云记忆服务。把学术架构(ZenBrain)、企业方案(AgentCore)、文档格式革命(ObjectGraph)、训练衬底(Synthetic Computers)和社区开源(Obsidian Skills、memsearch、Beads、Memori)这五条线放在一起,本周的清晰信号是:Agent 的下一道竞争线已经从模型本身转移到了"模型外的记忆基础设施"。

次要主题:Computer Use 走向工程化 — 沙箱、隐身浏览、视觉接地

Computer Use 这一周最大的变化,是从演示视频(demo)走向可部署的工程化基础设施。代表性方法是 DeepSeek 的视觉接地新工作,scaling01 的总结 把它定位为"为可靠且低成本的 computer use agent 解决了最后一块拼图"——用空间标记替代纯文本 DOM 解析,意味着 Agent 不再需要把整张网页转成几万个 token,而是直接对视觉坐标做推理。这一思路的可靠性—成本同时改善,是 Computer Use 从"贵但偶尔成功"走向"便宜且稳定"的关键技术拐点。
部署侧,Browser Use 把 Agent 当成长期住户——Browser Use Box 给每个 Agent 配一台 24/7 在线的专属计算机,支持任意 CLI Agent 接入,并自带 stealth 浏览器和持久身份验证。再上一层是 Cua(累计 14k 星),这套开源基础设施跨 macOS、Linux、Windows、Android 提供沙箱、SDK 和基准,让开发者可以训练并评估能控制完整桌面的 Agent;它特别支持后台运行 macOS 原生应用而不干扰用户、统一跨系统 API、以及内置 MCP 集成与可重放轨迹记录。在更对抗性的场景里,Camofox Browser(被列入"10 个免费却像收费"GitHub 仓库榜单)在 C++ 层伪造 navigator、WebGL、AudioContext 和 WebRTC 指纹,让 Agent 对 bot 检测保持隐身——这条路线意味着 Agent 不仅是工具调用方,也是一个被防御侧识别和阻挡的对象。
学术界用更结构化的方式补齐"训练数据"短板。Microsoft Research 的 AutoSurfer 用三个创新解决了 web 轨迹合成的痼疾:广度优先探索维持页面与动作迹的队列、利用探索轨迹引导任务合成减少幻觉、用同一轨迹作为提示精炼 Agent 行为。微调 Qwen2.5-VL-7B-Instruct 后,WebArena 上整体任务完成率达到 24.23%,显著领先 Explorer / OS-Genesis / SynthAgent 的 19.59%,并且生成任务多样性更高——这给"用合成轨迹训出小模型 Computer Use Agent"打开了可行通道。最具新闻性的现象级证据,来自一条颇具戏剧性的推文:snoopy_dot_jpg 用 GPT-5.5 通过 DevTools 操控 Chrome 完成了强制性 HR 培训视频;同一台机器上 Opus 4.7 拒绝了任务并"积极说教"。剥开调侃,这则案例的工程含义清晰:Computer Use 已经能完成对人类时间不友好的真实任务,差异不再是模型能不能做,而是不同模型在策略层愿不愿做——这把对齐和能力解耦推到了具体的产品决策面前。

📌 本周简讯

  • Talkie:仅用 1930 年前文本训练的 13B 语言模型 — 由 Nick Levine、David Duvenaud 与 Alec Radford(GPT 系列作者之一)合作开发,全部使用公共领域数据,Apache 2.0 许可发布。项目的实验意义在于:探索"纯净训练数据"边界——能否预测未来事件、独立发现现代科学理论、甚至学习编程?同时直面在微调中避免现代知识污染的难题,是关于训练数据本质的少见反向实验。
  • Aschenbrenner:AI 自动化 AI 研究将在 5 年内实现 — 24 岁、写下 165 页 AGI 宣言、把它变成 55 亿美元对冲基金的 Aschenbrenner 给出新判断:AI 能否自动化 AI 研究本身是最关键里程碑。Anthropic 公开目标 2027 年初全自动化 AI R&D,OpenAI 公开目标 2028 年 3 月做到全自主 AI 研究员,Sam Altman 此前说"研究实习生级 AI 今年内出现"。如果数学成立,递归自我改进会把十年的研究压成一年。
  • Anthropic BioMysteryBench:Claude 解出 5 位专家小组未解的 30% — Anthropic 发布的新基准包含 99 个真实生物信息学问题,使用未处理的 DNA 序列与临床样本等真实"脏数据"。Claude Mythos Preview 在 5 位专家小组都未解的 23 个问题中解出 30%。Genentech 与 Roche 用各自的 CompBioBench 独立验证:Claude Opus 4.6 整体准确率 81%、最难题 69%。AI 在最难的科学问题上不再是追赶者。
  • Physical AI 与屏幕 AI 的本质差异 — Applied Intuition 创始人深谈 — Qasar Younis 与 Peter Ludwig 在播客中讲清一个核心命题:Physical AI 不是"轮子上的 LLM",部署瓶颈不在模型智能,而在硬件可靠性。从仿真到 150 亿美元物理 AI 平台演进、车载实时 OS、世界模型、统计安全验证(取代确定性测试)等议题,是这周最值得为机器人/自动驾驶/嵌入式 AI 从业者标记的访谈。
  • DeepSeek-V4-Pro 在 Pi 编码 Agent 中开箱即用 — omarsar0 用基础 Pi harness + DeepSeek-V4-Pro 跑了几个小时,得出"首个能在 agentic coding 上达到 Codex/Claude 水平的开源模型"的判断。1M 上下文 + 混合 CSA/HCA 注意力把 KV 缓存压到 10%、推理 FLOPs 在 1M token 下减少近 4×,加上 Fireworks 的快速推理基础,成为开源模型在 agentic 维度真正能落地的拐点信号。
  • AI
  • 周报
  • 技术趋势
  • 从RL比SFT更不容易遗忘到反观推荐系统缺陷AI 技术日报 - 2026-05-03
    Loading...