type
Post
status
Published
date
Apr 19, 2026 03:47
slug
ai-weekly-2026-W16
summary
W16 把 AI 行业三条结构性主线第一次压到同一周。第一条是 Agent 交付形态——OpenAI 4 月 16 日让 Codex 桌面化(Mac Computer Use、90+ 插件、跨任务记忆),几乎与 Anthropic Opus 4.7 + /ultrareview 前后脚落地,"写代码的 AI"与"用电脑的 AI"合流到操作系统层。第二条是 Agent 记忆工程全面爆发:Microsoft MEMENTO 把推理中间态压缩成可寻址 memento,累计 6 万星的 claude-mem、1.6 万星的 cognee、1 万星的 omi 同时发力,Percy Liang 把 "Act II = personalized assistant with memory" 写进行业宣言。第三条是 RL 后训练系统的基础设施化——Rednote AI、Morgan Stanley、Shanghai AI Lab、Sakana AI、NVIDIA 同周抛出 Relax、AlphaLab、TREX、MARS²、AC/DC、Lightning OPD,把"怎么自动化地让 LLM 变强"抬升到多智能体协同科研堆栈。围绕这三条主线,还有 Agent 治理、软件工厂、本地推理、算力经济学四条支流各自显形;自动化能力继续沉淀为系统工程的同时,算力稀缺与治理复杂度也开始同步抬头。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority
-1
📊 本周概览
W16 把 AI 行业三条结构性主线第一次压到同一周。第一条是 Agent 交付形态——OpenAI 4 月 16 日让 Codex 桌面化(Mac Computer Use、90+ 插件、跨任务记忆),几乎与 Anthropic Opus 4.7 +
/ultrareview 前后脚落地,"写代码的 AI"与"用电脑的 AI"合流到操作系统层。第二条是 Agent 记忆工程全面爆发:Microsoft MEMENTO 把推理中间态压缩成可寻址 memento,累计 6 万星的 claude-mem、1.6 万星的 cognee、1 万星的 omi 同时发力,Percy Liang 把 "Act II = personalized assistant with memory" 写进行业宣言。第三条是 RL 后训练系统的基础设施化——Rednote AI、Morgan Stanley、Shanghai AI Lab、Sakana AI、NVIDIA 同周抛出 Relax、AlphaLab、TREX、MARS²、AC/DC、Lightning OPD,把"怎么自动化地让 LLM 变强"抬升到多智能体协同科研堆栈。围绕这三条主线,还有 Agent 治理、软件工厂、本地推理、算力经济学四条支流各自显形;自动化能力继续沉淀为系统工程的同时,算力稀缺与治理复杂度也开始同步抬头。OpenAI Codex 桌面化 vs. Claude Opus 4.7:Agent OS 之争白热化
W16 最重的信号不是模型参数,而是 Agent 的交付形态:本周 OpenAI 与 Anthropic 几乎在同一天各自把自己的 Agent 推进到操作系统层,"写代码的 AI"和"用电脑的 AI"在这条线上正式合流。
在此之前,Codex 的定位还有相当明确的边界——它起步于
openai/codex 仓库里那个 "lightweight coding agent that runs in your terminal" 的 CLI 工具,随后在 2026 年 2 月登陆 macOS 桌面、3 月补齐 Windows。但 4 月 16 日的 Codex for (almost) everything 彻底打破了"编码 Agent"的框架:Mac Computer Use、应用内浏览器、基于 gpt-image-1.5 的图像生成、跨任务持续记忆、以及超过 90 个覆盖 Atlassian、CircleCI、Microsoft Suite 的插件被整体塞进了桌面应用。@OpenAI 官方口径是 "use apps on your Mac, ..., take on ongoing and repeatable tasks";@VaibhavSisinty 的总结更直接:"Codex is no longer a coding agent. It's a full operating layer." Sam Altman 亲自给背景计算机使用站台,称 Computer use "feels even more useful than I expected",能在不干扰直接工作的前提下并行操作所有 Mac 应用;@AriX 和 @embirico 则披露了产品设计上的关键细节——Codex 带着自己的光标在后台点击、敲键盘,用户仍然可以同时使用自己的电脑。这条"并行、非抢占"的交互范式,比 90 插件本身更能说明 OpenAI 对 Agent 形态的判断:桌面不再是 IDE 的延伸,而是 Agent 的运行环境。配套放出的 The next evolution of the Agents SDK 补齐了另一半拼图——原生沙箱执行 + 模型原生框架,为长期运行、可安全授权的 Agent 提供基础设施,这和桌面 Computer Use 形成明显的上下游关系。同样耐人寻味的是,这场发布在时间轴上被 @kimmonismus 精确记录为 "one hour after Anthropic's Opus 4.7"。Anthropic 这边的节奏同样密集:4 月 16 日的 Claude Code v2.1.110 先把 TUI 改成无闪烁渲染、加上移动推送通知和 MCP 服务器配置冲突检测,次日的 Claude Code v2.1.111 则一次性上了三件真正攸关 Agent 形态的东西:Opus 4.7 xhigh 模型配
/effort 滑块、/ultrareview 云端并行多 Agent 代码审查、/less-permission-prompts 自动化权限列表生成。对照历史节奏可以看出 Anthropic 的推进曲线——从 v2.1.36 让 Fast mode 首次承载 Opus 4.6,到 v2.1.75 对 Max/Team/Enterprise 默认开启 Opus 4.6 的 1M 上下文,再到本周 Opus 4.7 xhigh 成为顶层档位——Anthropic 过去一季度基本每一次大版本都在"上下文+推理深度"这条轴上加码。Simon Willison 拿到的 Claude Opus 4.6 与 4.7 system prompt diff 更提供了一个稀有的窥探:4.7 新增了 Claude in PowerPoint 工具,明确写入"工具优先于用户澄清"的 Agentic 设计原则,并扩展了儿童安全指令、删除了过时行为限制——这已经不只是模型升级,而是 prompt 层对 Agent 行为模式的重写。两家把 Agent 推到 OS 层的路径因此呈现出清晰分工:OpenAI 从 GUI 外沿切进来,用 Computer Use 和插件覆盖一切无 API 的应用;Anthropic 从 CLI 内核向外扩张,用 Opus 4.7 xhigh + 细粒度权限和云端并行审查,把"编码 Agent"进化成"软件工程 Agent"。生态链的反应几乎是实时的。@LightningAI 在发布后不到 24 小时把 Opus 4.7 接入平台,主打"long-running agents、deep research、multi-step workflows";@ClaudeDevs 放出
/usage 指令,让开发者看到自己的 token 消耗到底被并行会话、subagent、cache miss、长上下文中的哪一项吃掉——这条信息看似工具功能,但实际暴露了 Anthropic 承认的新现实:典型 Claude Code 用户的账单结构已经从"单次对话"变成"多 Agent 并行 + 长期会话 + 工具调用"。更有意思的是 @mikefutia 贴出的真实用例:Claude Cowork 自动打开浏览器登录 Meta Ads Manager、抓取投放数据、分析创意、生成简报——这本质上和 Codex 的 Computer Use 做着同一件事,但入口和界面完全不同。开源侧的参照物也在加速更新——affaan-m/everything-claude-code 在做 Claude Code / Codex / Cursor 的 harness 性能优化,trycua/cua 提供 macOS/Linux/Windows 的 Computer-Use 沙箱 SDK,lsdefine/GenericAgent 用 3K 行代码证明 Agent 框架未必需要庞大体量,而 Yeachan-Heo/oh-my-codex 则在给 Codex CLI 添加 hooks 和 agent teams。这些项目之间的"相互借鉴"正在加速:Agent 的架构模式(hooks、subagent、并行沙箱、权限颗粒度)已经开始在闭源产品和开源项目之间自由流动。真正的文化冲击写在 Latent Space 的 [AINews] RIP Pull Requests (2005-2026) 里——它提出一个很尖锐的论断:PR 作为 2005 年以来的软件工程核心协作单元,正在被 "Prompt Requests" 取代,配套的工程架构是 "stateless orchestration + stateful isolated workspaces",OpenAI Agents SDK、Cloudflare Project Think、Agent Lee 都在往这个方向走。把这条线和本周的
/ultrareview(云端并行多 Agent 代码审查)、Codex 的后台并行任务对起来看,软件工程的工作单元正在从"人写代码 → 人审 PR"变成"人下 Prompt → Agent 产出 + Agent 审查 → 人做仲裁"。Hamel Husain 对 Codex desktop 的五点总结——操作无 API 的 Mac 应用、视觉浏览器操作、自动化技能创建、并行执行、记忆学习偏好——几乎就是这个新工作流的具象版本。而 Ben Thompson 在 OpenAI's Memos, Frontier, Amazon and Anthropic 里则把视野拉到更高:OpenAI 内部备忘录显示企业市场是它和 Anthropic 真正短兵相接的战场,而 Amazon-Anthropic 的绑定关系决定了 Anthropic 会更强调可审计、可授权、可回溯的 Agent 行为。本周的产品分野正是这一战略差异的外化:Codex 插件生态优先(消费者 + 长尾 SaaS),Claude Code 权限系统与并行审查优先(企业 + 工程团队)。把这几条线索合起来看,W16 不是"OpenAI 发布 vs Anthropic 发布"的二元对抗,而是一次 Agent 操作范式的集体位移——Agent 不再寄生于 IDE 或 Chat 界面,而是开始争夺桌面、浏览器和 PR 工作流这三个长期属于人的入口。真正值得追踪的,已经不是下一次模型得分,而是谁先能让这个"操作层"变得可审计、可授权、可复用。
Agent 记忆工程——从论文到产品化,"第二脑"成一等公民
如果说过去一年 Agent 的叙事主线是"工具调用"与"多步规划",那么本周几乎是以一种集体转身的姿态,把聚光灯打在了记忆层上。学术端有 Microsoft 把推理中间态压缩成可寻址单元的尝试,工程端涌出多个累计星标上万、主打"第二脑"的开源项目,产品端则有 Percy Liang 直接在推文里写下 "Act II = personalized assistant with memory"。记忆不再是"RAG 插一层向量库"式的选配工具,而是下一代 Agent 差异化的核心战场。
真正把这种转向推向方法论层面的,是 Microsoft Research 的 MEMENTO: Teaching LLMs to Manage Their Own Context。它切中了一个被长期忽视但极痛的事实:推理模型在长思维流中缺乏任何压缩机制,context 只会一路膨胀到失速。MEMENTO 的做法是让模型自己把推理分块、压缩成 dense 的 memento summary,之后的推理只 attend 这些 mementos 而非原始 token 流;配合 OpenMementos(228K 推理 trace)做两阶段 SFT,在 Qwen3、Phi-4、Olmo 3(8B–32B)上峰值 KV cache 降至约 1/2.5、吞吐提升 ~1.75×。社区迅速捕捉到这一点,@akshay_pachaar 的解读 把它概括为 "Microsoft just mass-compressed LLM reasoning"。更值得玩味的是论文中的 ablation:删掉 KV channel 会让 AIME24 掉 15pp,说明被压缩的不只是显式的 memento 文本,还有隐式的 KV 状态——换言之,记忆在这里第一次被建模成"文本摘要 + 内部状态"的双通道。这与过去 MemGPT/Letta 一脉"外挂分层存储 + 工具调用读写"的范式是结构性差异:MemGPT 把记忆当作 OS 式的外部资源,MEMENTO 则把压缩下沉到推理过程本身。两者未必互斥,但后者首次把记忆变成推理回路里可优化的一等对象。
如果 MEMENTO 代表记忆被"内化"到模型权重边缘,那本周在 GitHub 榜单上同时发力的几个项目则代表它被"外化"成可交付的产品形态。累计 6 万星的 thedotmack/claude-mem 专为 Claude Code 做持久化记忆压缩,在每一次编码会话结束后让 agent-sdk 自动把操作轨迹压缩入 ChromaDB/SQLite,下次会话再注入相关上下文;topoteretes/cognee(累计 1.6 万星)走的是向量搜索 + 图数据库的混合路线,把认知科学的"持续学习"语言套进了 agent 记忆框架;BasedHardware/omi(累计 1 万星)则更激进地把记忆往硬件端推——可穿戴设备实时转录语音与屏幕,再让对话 agent 基于这份"生活流水"作答。这三者的定位差异很明显:claude-mem 是开发者工作流的嵌入式 buffer、cognee 是通用的知识引擎、omi 是"第二大脑"式的生活助理;但共同点是都把记忆从"隐藏的 RAG 细节"抬成了产品卖点。@DAIEvolutionHub 汇总的 2026 年 Claude Code 最佳仓库 把 Claude Mem 直接列在第一位,这本身就说明社区的 mental model 已经切换——此前位列榜单前排的往往是
affaan-m/everything-claude-code 这类"performance + skills + security"集成方案,本周则被"先解决记忆"顶了下来。工程侧也出现了一个尤其值得关注的比拼对象:@AIonBase_ 披露的 Sibyl 框架 声称基于分层 JSON/文本文件这样极简的底层结构,在 LongMemEval 基准上拿到 95.6% 的准确率——LongMemEval 的 QA 赛道此前多数主流方案在 60–95% 区间游走,能到 95%+ 的都是像 Mastra Observational Memory 这类复杂路径。如果 Sibyl 的数字经得起复现,它其实回答了一个很有挑衅性的问题:在 LLM 读取能力已经足够强的前提下,agent 记忆的瓶颈到底是索引结构复杂度,还是召回时的结构组织。Sibyl 选择了后者。同一语境里,@aiedge_ 提到的另一个项目 把 Karpathy 的 Obsidian 知识库整套映射成 Claude 可执行的 skills——这已经不只是"把笔记变成 RAG 语料",而是把一个人的知识拓扑当成 agent 的操作 API。这两个项目隐隐指向同一个方向:记忆的下一步不是"存更多",而是"让结构本身成为可调用的技能"。
产品与行业侧的定调则由 Stanford 的 Percy Liang 亲自提出:Act I 是给 LLM 做匿名层("VPN for intelligence"),Act II 则是"deeply personalized, privacy-preserving assistant",并点名了 nanomem 作为技术路径。把它和 MEMENTO、claude-mem、omi 放在一起看会发现:学术端在降推理成本、工程端在抢"第二脑"心智、行业领袖则在框定下一个叙事周期——三条线第一次在同一周聚焦到同一件事,这种同频本身就是信号。
但越靠近"一等公民",治理层面的问题也越显性。Layered Mutability 提出的五层框架(pretraining / post-training alignment / self-narrative / memory / weight-level adaptation)把记忆单独列为一层,论文给出的 identity hysteresis ratio = 0.68 说明即使回退掉 agent 可见的自述,它也回不到基线行为;真正的失败模式不是一次坏写入,而是"compositional drift"——每一次更新看起来合理,累加之后行为轨迹已越过授权边界。这比 2025 年流行的"reflective prompting"把问题拔高了一层:reflection 管的是单轮的自我审视,而 Layered Mutability 关心的是记忆—行为耦合在长时间尺度上的可逆性与可观测性。与之呼应的是来自 Fudan/Meituan 的 MUSE,虽然定位是中文多域用户模拟器,但它强调的 Iterative Profile Self-Evolution + Role-Reversal SFT 实际上也是在回答一个对偶问题:当 agent 开始有了持久化 persona,你如何保证它不是 shallow profiling 而是可控演化的?两篇论文从不同方向给了同一个警告——让记忆"活"起来的下一个关口,是让记忆"可治理"。
综合来看,这一周让"Agent 记忆"从工具层跃迁到了架构层:MEMENTO 把它压进推理回路、claude-mem/cognee/omi 把它抬成产品形态、Sibyl 和 Karpathy-skills 在比拼结构即能力、Percy Liang 给出了叙事坐标,而 Layered Mutability 和 MUSE 已经开始在它后面钉上护栏。第二脑时代的门票已经开售,真正的分水岭在于谁能同时把"容量、可调性、可治理"三件事做齐。
Agentic RL 后训练系统——训练基础设施从"单智能体"走向"多智能体协同科研"
本周多家工业实验室同步给出一个信号:RL post-training 已经不再是"写一个 loss、跑一个 trainer"的事,而是正在演变成一套完整的 Agent 系统工程。从异步 rollout 引擎到多智能体搜索树,再到让 LLM 自己设计训练流程,工具栈的抽象层次正在整体上移。
Rednote AI 的 Relax 可以看作是这一转向在基础设施层的集中呈现。论文直面 omni-modal RL 后训练中的三座山——异构数据流、大规模鲁棒性、staleness 与吞吐的权衡——给出的解法是把每个 RL 角色(actor、reward、rollout、trainer)拆成 fault-isolated 的独立服务,再用一条叫 TransferQueue 的数据总线贯通起来;最有意思的是它只暴露一个 staleness 参数,从 on-policy 连续滑动到 near-on-policy 再到 fully async。这种"旋钮化"的设计直接反映在数据上:Qwen3-4B 上 fully async 相对 colocate 做到 1.76x,Qwen3-Omni-30B 拉到 2.00x;更关键的是 R3 MoE rollout 这种过去在 veRL 下会掉 32% 的场景,Relax 只付 1.9% 的额外开销。这和社区此前在 MiniMind 的
rollout_engine 笔记里反复强调的"训推分离"观察相互印证——单机 colocate 在 MoE 与多模态叠加后几乎必然失效,服务化解耦不是锦上添花,而是硬约束。过去一年开源侧更常见的是 Meta 的 OpenEnv 这类"给 RL 提供标准环境接口"的努力,而 Relax 把视角拔高到了整套训练 runtime 的服务化,这是一个量变到质变的跨越。基础设施就绪之后,"用谁来驱动训练"这件事开始被重新定义。Shanghai AI Lab 的 TREX 干脆把训练生命周期本身建模成一棵搜索树:Researcher 做需求分析和开放域文献检索,Executor 负责 data recipe、训练、评估;多轮实验不是线性跑下去,而是由 planner 规划探索路径、复用历史结果、从迭代中蒸馏高层见解。配套的 FT-Bench 收录了 10 个源自真实场景的任务。与之呼应的是 Morgan Stanley 的 AlphaLab,它把同样的自动化研究循环搬到量化/计算密集领域——给定数据集和自然语言目标,三阶段无人工介入地做完 domain adaptation、评估框架构造、Strategist/Worker 大规模 GPU 实验。所有 domain-specific 行为由模型自生成 adapter 实现,实验用了 GPT-5.2 和 Claude Opus 4.6 两个前沿模型,跑出的 CUDA kernel 平均比 torch.compile 快 4.4x(最高 91x),LLM 预训练 validation loss 比 single-shot baseline 低 22%,流量预测超基线 23–25%。特别值得玩味的是论文观察到两个模型发现的解法质化不同,因此 multi-model campaigns 能提供互补搜索覆盖——这已经不是"哪个模型更强"的话题,而是把 frontier LLM 当作具备不同归纳偏置的"研究员"在调度。
把"搜索树"从训练编排下沉到推理内部,就是 Shanghai AI Lab 的 MARS² 所做的事。它把 tree-structured 搜索环境建模为多智能体的可学习交互场,异构 agent 各自优化 policy,但在共享 topology 下协作生成与精炼代码候选;论文提出 path-level group advantage + tree-consistent reward shaping 来解决复杂搜索轨迹的 credit assignment,代码开源在 TsinghuaC3I/MARTI。与 TREX、AlphaLab 一起,它们构成了一条从"实验级"到"token 级"的连续谱:同一个搜索树抽象,分别落在训练编排、研究循环、代码生成三个粒度上。
与此同时,"让训练数据本身变复杂"也被当成 agentic RL 的一等公民。Amazon/PSU/Georgia Tech 的 COVERT 提出两阶段 pipeline:先通过 self-evolving synthesis + multi-level validation 生成可靠的 base tool-use 轨迹,再做 oracle-preserving augmentation——往里灌 distractor tools、间接或模糊的用户 query、噪声与多格式的 tool outputs——但严格保留 oracle tool calls 和 final answers 作为 ground truth。这样自动 reward 就能算,轻量 judge 只负责兜底。Qwen2.5-Instruct-14B 上 COVERT-RL 把 BFCL v3 从 56.5 推到 59.9、ACEBench 53.0→59.3,叠 SFT 后再抬到 62.1/61.8。这条线和 Sakana AI 的 AC/DC 精神一致:后者用 model merging 进化 LLM、用合成数据进化任务,一次 run 内维护一个动态 archive,能以更小 GPU 内存跑出比更大模型更宽的 Coverage,并改进多 agent best-of-N 选择。两者都在说同一句话——task 与 capability 必须协同演化,否则合成数据很快会撞到固定难度上限。
效率侧也给出了一个"反高潮"的重要观察。NVIDIA 的 Lightning OPD 质疑了一个朴素假设:offline 版本的 on-policy distillation 之所以长期打不过 online 版本,并不是 offline 本身的问题,而是没保住 teacher consistency——SFT 和 OPD 必须用同一个 teacher。一旦强制这条件,预计算 teacher log-probs 就能完全替代 live teacher 服务。Qwen3-8B-Base 起点只要 30 GPU 小时就能在 AIME 2024 拿到 69.9%,相比标准 OPD 提速 4.0x。这给"服务化解耦"趋势打了个补丁:不是所有 RL 角色都必须 live 常驻,识别哪些可以提前物化成数据,是节流的另一条门路。Fastino Labs 的 Pioneer Agent 则把视角转向生产侧小模型——冷启动模式下仅凭自然语言任务描述就能 acquire data、构造评估集、迭代训练;生产模式下诊断失败模式、在 regression 约束下 retrain。在 8 个冷启动 benchmark 上涨 1.6–83.8 点,两个实际部署把 intent classification 从 84.9% 推到 99.3%、Entity F1 从 0.345 推到 0.810,而朴素 retrain 最惨掉 43 点——这是 agentic 训练流水线在"不起眼但高价值"场景的真实收益。
上述方法都需要一个工程落点,而微软开源的 agent-lightning(累计约 1.7 万星)正好扮演了这个"通用训练后端"的角色。它承诺零代码改动、跨 LangChain / AutoGen / CrewAI 训练任意 agent,支持 RL 与自动 prompt 优化;这意味着上文这些论文里的算法创新可以相对平滑地接入业务侧存量代码。与之形成 benchmark 侧回声的是 Navers Lab 与 Einsia.AI 的 Frontier-Eng:47 个跨 5 大工程类别任务,强调 propose-execute-evaluate 的 generative optimization 而非 binary pass/fail。8 个 frontier 模型里 Claude 4.6 Opus 最鲁棒,论文观察到 dual power-law decay——改进频率约 1/iteration、改进幅度约 1/improvement count——并发现 width 能买来并行与多样性,但 depth 仍是 hard-won 突破的关键。这对上面所有搜索树式系统都是一个冷静的提醒:并行撒网容易,真正值钱的还是深挖单一轨迹的能力。
把这十条工作放在一起看,方向已经很清楚:RL post-training 的下一阶段不是再刷一个算法 SOTA,而是把 rollout、环境、数据合成、实验调度、模型进化都装进一个多智能体协同科研的堆栈里。这条路径实际上与主要主题 1 里 Anthropic 的
/ultrareview(云端并行多 Agent 代码审查)在产品层互为镜像——一端把"自动训练"、一端把"自动审查"同时拧成多 Agent 协同工作流。谁先把这套堆栈产品化,谁就掌握了下一代自动化训练的操作系统。Agent 治理、合规与安全——企业落地前的最后一公里
本周一系列工作把"Agent 事故"从假设变成了可观测、可复现的工程事件。Atlassian 的 Policy-Invisible Violations in LLM-Based Agents 把问题抬到方法论层面:同一条 policy 用自然语言写和用结构化 schema 写,Agent 的违规率可能相差数倍,作者因此提出 PhantomPolicy 基准与 Sentinel 执行框架,把"看不见的违规"做成可度量项。相比之下,Semarx Research 的 Bi-Predictability 给运行时留了一条更便宜的路——它无需二次推理,只用模型自己的 token 分布观测"silent uncoupling"(多轮对话里角色预测与话题预测的耦合度下降),把静默的质量滑坡变成可以实时报警的信号,与 PhantomPolicy 的离线评估形成互补。
落到实际攻防层面,GitHub 发布的 Secure Code Game S4 — Agentic AI security 把 prompt injection、越权工具调用、越狱等五级漏洞做成游戏化训练关卡;同样开源向的 usestrix/strix 则把"AI 黑客"做成可复用的自动化渗透+修复 Agent。两者都在默默回答同一个问题:企业 Agent 的红队不能只靠人工。
CMU 的 When Should AI Step Aside? 从另一端给出了治理视角——预测"人类何时想介入"而非"Agent 何时应退出",把交接从规则题变成概率题。最务实的案例写在 AWS 的 Rede Mater Dei:巴西医疗集团用 Bedrock AgentCore 为 12 个生产 Agent 搭建可观测/治理架构,证明在医疗合规场景里,日志、审计、权限细粒度已经是 Agent 能否上线的必选项,而非 nice-to-have。这一组信号合起来说明:Agent 治理正在从"读一份 policy"进化为"可度量、可监控、可演练"的闭环工程栈。
"软件工厂"落地——Skills/包管理/多 Agent DevOps 配齐
本周"软件工厂"这个概念第一次有了完整的工具链证据。Latent Space 对话 Notion 的 Token Town: 5 Rebuilds, 100+ Tools 是整条叙事的起点:Sarah Sachs 和 Simon Last 回顾了从 2022 年 Agent 实验失败到今天 Custom Agents 产品的 4-5 次重构,并明确提出"软件工厂愿景"——需求、编码、测试、调试、评审、维护由多个 Agent 协作完成。这不是概念,而是工程文化结构化的记录。
标准化这一层,Anthropic 的 anthropics/skills(累计 12 万星)把官方 Skills 规范与技能库钉死;Microsoft 紧跟开源 microsoft/apm,用
apm.yml 统一声明 skills/prompts/plugins,等于给"AI 项目"定义了类似 package.json 的 manifest。两者方向高度重合——有 schema 就有生态。工作流层面也同时成熟:snarktank/ralph 用"Ralph 循环"把 PRD 变成可交付代码,只靠 git +
progress.txt 就把状态持久化做到了 Agent 级;Donchitos/Claude-Code-Game-Studios 干脆把 49 个专业角色 Agent 组成虚拟游戏工作室;gsd-build/get-shit-done 则把"规范驱动开发"做成元提示/上下文工程系统。这些开源项目与 Notion 的闭源实践在同一条时间线汇合,使"多 Agent DevOps"不再是 PPT。规模侧最重的背书来自 Meta 工程博客的 Capacity Efficiency at Meta——把资深工程师的领域知识编码成可组合 skills,据称已为 Meta 节省数百兆瓦电力。把这条与 Anthropic 的 Skills 规范合起来看,"工程师经验→可调用 skill"已经从个人知识管理问题升格为数据中心级的 ROI 问题,这正是"软件工厂"能说服 CFO 的临门一脚。
开源前沿模型与本地推理——Mac/个人设备侧能力继续追赶
本周开源阵营一连串动作把"本地能做到的事"又往前推了一截。NVIDIA 的 Nemotron 3 Super 采用 MoE Hybrid Mamba-Transformer 架构,120B 总参/12B 激活、NVFP4 预训练、1M 上下文,把"高效开放模型"的 SOTA 线重写;LG AI Research 的 EXAONE 4.5 则是 LG 首个开源权重 VLM,256K 上下文,瞄准非英语场景。更具故事性的反转来自 Simon Willison 的 Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7——他在 MacBook 上跑的本地 Qwen 在 SVG 基准上竟然击败闭源 Opus 4.7。这条"桌面击败云端"的个体报道比任何数据表都更容易传播。
本地推理工具集正在把它变成可复现的日常能力。unslothai/unsloth 以 2x 训练速度、70% VRAM 降低持续扩张;jundot/omlx 专为 Apple Silicon 设计本地 LLM 推理服务器;@UnslothAI 展示的 2-bit Qwen3.6-35B-A3B 能完整跑完 repo bug hunt + PR 撰写,表明强量化不再等同于玩具。更具代表性的是 @RoundtableSpace:Claude Code 已可通过原生 Anthropic-style 服务器在 MacBook 上 100% 本地运行,直接替代 Anthropic 代理层——"本地 Agent"从命令行工具上升到产品形态。
稍显不同步的是基础设施侧。@Kimi_Moonshot: Cross-datacenter P/D disaggregation 公布了跨数据中心 + 异构硬件的 Prefill/Decode 解耦,更像是中国头部模型厂商面对算力资源调度的工程回答。把这几条合起来看,一端是个人设备把推理拉回家,一端是大厂在跨 DC 层级重新切分推理图——开源与本地推理的迁移正在把"AI 算力地理"重新布局。
行业战略视角——算力经济学与开放模型的长期博弈
本周两位重量级分析师几乎同时把视角从产品切换到宏观结构。Ben Thompson 的 Mythos, Muse, and the Opportunity Cost of Compute 抛出一个极具后果的判断:推理模型让"AI 每一次回应"的边际成本不再趋近于零,一家公司把 Opus 4.7 xhigh 跑在顶配 effort 上或用 GPT-5.2 做 24 小时 deep research,占用的 GPU 小时不再可以忽略。这会直接重写 2010 年代以来统治互联网商业的"聚合理论"——消费者端从"免费+广告"滑向"按推理付费"的赛道分化。
Nathan Lambert 在 My bets on open models, mid-2026 从另一个角度给出互补判断:在 RL 驱动的真实使用场景(多轮工具调用、长时运行 Agent)上,闭源模型正在拉大而不是缩小与开源的差距。把这条与本周的 NVIDIA Nemotron 3 Super / LG EXAONE 4.5 放在一起看会很有意思——开源在参数结构上仍在快速进步,但"能成为生产 Agent"的门槛已随 RL 后训练生态(见主要主题 3)被悄悄推高。
最具分量的第一手注解来自黄仁勋在 Dwarkesh 节目里的 TPU competition, why we should sell chips to China, & Nvidia's moat。他第一次公开承认 TPU 是真正对手、反对停止对华销售先进芯片、并把 Nvidia 的真正护城河归于供应链与软件栈而非单颗芯片。三条信号合起来可以这样读:算力从可替代资源变为稀缺变量;开源模型在"能写 SVG"这层继续胜出,但在"能跑通生产 Agent"这层要长期承压;而决定这一切的上游——GPU 供应、出口管制、数据中心选址——已被正面点名为竞争焦点。下一阶段的胜负已经不是模型分数,而是谁能把推理成本结构与算力地理同时握住。
📌 本周简讯
- From hours to minutes: Agentic AI gave marketers time back — AWS 自家营销团队把网页组装流程从 4 小时压缩到 10 分钟,是 Bedrock Agentic AI 在"非工程部门"提效的一手内部案例,对 B2B 企业复制此路径有较强参照。
- Structured Outputs vs. Function Calling: Which Should Your Agent Use? — Jason Brownlee 给 Agent 架构师提供一份决策流程图,把"JSON 模式 vs 工具调用"的选择标准落到性能、成本、可维护性三条轴上,算是本周少见的实用选型指南。
- Open Source Self-Driving with Comma AI — Practical AI 与 Comma AI CTO 深谈 OpenPilot 的"端到端世界模型"路线,把自动驾驶视作开源机器人学习实验场,给 AI Agent 研究者提供跨域视角。
- Uber, Nissan, Mercedes Chose This Self-Driving Startup — Alex Kendall, Wayve — Gradient Dissent 节目里 Wayve CEO 披露其端到端 AI 驾驶已覆盖 506 个城市、拿下三家车厂定点,证明"纯视觉端到端"路线在产业化节奏上已追平甚至反超 LiDAR 方案。
- Scaling Global Organizations in the Age of AI — ServiceNow CEO Bill McDermott — No Priors 对话把 ServiceNow 定位为企业"AI 控制塔",McDermott 用 CEO 视角谈人机协作如何重塑劳动力结构,是本周罕见的"非技术侧"战略访谈。