AI周报 2026-W17 | Recsys Frontier

type

Post

status

Published

date

Apr 25, 2026 13:20

slug

ai-weekly-2026-W17

summary

本周 AI 圈密度极高的三件事，恰好可以拼成一句完整的判断——"模型在卷，Agent 在长出工程层"。OpenAI 把 GPT-5.5 与重构后的 Codex 一并放出，把 Agent 的能力面从写代码扩到操作整台计算机；DeepSeek 蛰伏 484 天后用 V4 Pro/Flash 把"百万上下文 + 真实工作 Agent"的成本拉低一整档；与此同时 OpenAI、Vercel、Hugging Face 同步端出官方 Skills 仓库，Microsoft Agent Framework 1.0 正式发布、Sakana Fugu 进入商业 Beta、Google Cloud Next 的 marathon planning 多 Agent 系统直接开源——围绕 Skills 与 Multi-Agent 编排的生态层集中跨过生产化门槛。这之外还有三条暗线值得跟踪：Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线，请看"客户端 + 模型 + 编排"被一次性扣紧的拐点；如果只读一篇评测，AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049，对所有做 Agent 的团队都是一次反向校准。

📊 本周概览

这之外还有三条暗线值得跟踪：Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线，请看"客户端 + 模型 + 编排"被一次性扣紧的拐点；如果只读一篇评测，AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049，对所有做 Agent 的团队都是一次反向校准。

🔵 GPT-5.5 与 Codex Superapp：从聊天到"计算机劳动"的拐点

本周 OpenAI 同时放出了 GPT-5.5（含 Pro）与重构后的 Codex 桌面端，并把模型同步推上 GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 全线。这不是一次寻常的版本升级——它把"模型 + 客户端 + 技能"打成一个组合包，把 Agent 的能力面从"写代码"扩到"操作整台计算机"，也直接撞上 Anthropic Opus 4.7 这场刚刚布好的防线。

从基准看，GPT-5.5 这一代显然是按"代理工作"而非"对话回答"被训练出来的。swyx 给出的成绩单一口气列了 82.7% Terminal-Bench 2.0、58.6% SWE-Bench Pro、84.9% GDPval、98.0% Tau2-bench Telecom、80.5% BixBench，并强调它在 Codex 内做到 400K 上下文、API 端 1M，新定价 $5/M 输入、$30/M 输出 token，"Codex 把自己的推理速度又提了 20%"——这是首个与 GB200/GB300 NVL72 协同设计的代际。ARC Prize 单独发了一组数：ARC-AGI-2 在 xHigh 设置下达到 85.0%、单题成本 \$1.87，Greg Kamradt 进一步指出这一成绩"以 Gemini Deep Think 几分之一的成本"刷成 SOTA，而低推理档位已经几乎没有意义，中等推理才是新默认值。Latent Space 的 GPT-5.5 and OpenAI Codex Superapp 把这一点说得更直白：中等档位的 GPT-5.5 已经能与 Claude Opus 4.7 最高档位打平，成本只有四分之一——性价比帕累托被整体推到了新位置，而 reach_vb 观察到的"输出 token 数显著降低" 说明这种成本优势主要来自模型层面的 token 效率——也就是单位任务的 token 消耗下降，而不是单纯的 API 价格让利。

如果 GPT-5.5 是"更强的引擎"，Codex 这一版才是 OpenAI 真正想押注的方向。Codex 团队成员 thsottiaux 一口气列出新功能：完整的浏览器使用、全局听写、non-dev 模式、比 yolo 更安全的自动审查（auto-review）模式、应用内文档与 PDF 查看，再加上 GPT-5.5 本身。James Sun 把 Browser Use 的意义讲得最清楚：现在你可以让 Codex 构建前端，再像真实用户一样点击测试，看 DOM 也看 console 与 network 日志，自己抓 bug 自己改——build & verify 闭环第一次在本地真正合上。Greg Brockman 顺势宣布 Codex + 5.5 已经不只是给程序员的工具，电子表格、幻灯片以及任何"在电脑前完成的工作"都进入它的射程；OpenAI 官方教程 Top 10 uses for Codex at work 与 What is Codex? 配合 How to get started with Codex 把这种"超越聊天"的定位写成可上手的操作手册，加上 Speeding up agentic workflows with WebSockets in the Responses API 给出 connection-scoped 缓存与 WebSocket 持久连接的工程范式，整套基础设施已经按"长跑型 Agent 客户端"被重新打磨过。Ethan Mollick 在 Sign of the future: GPT-5.5 中用 3D 城镇模拟与图像生成做了感性试驾，并把视角拉到"模型 + 应用 + 工具的整合本身才是产品"——而 Simon Willison 的 pelican 测试与对 ChatGPT Images 2.0 的浣熊评测则从开发者侧验证了模型在生成质量与 SVG 复杂度上的肉眼可见跃迁。值得对照阅读的是 GPT-5.5 System Card 与官方 Introducing GPT-5.5：OpenAI 的措辞已从"最聪明的模型"切换到"为复杂目标、工具使用、自我检查与持续推进任务而生"，连 Sam Altman 自己也只用一句轻描淡写的更多 Codex 新功能即将到来，和新模型打成一个有趣的小捆绑，把焦点引向产品组合而非模型单点；官方账号与 GPT-5.5/Pro API 同步开放的公告进一步把"完成计算机劳动的新方式"写成本周的主叙事。

这一切落地的时机对 Anthropic 来说异常难堪。过去一个月社区不断抱怨 Claude Code "变笨"，ClaudeDevs 这周才发出官方 post-mortem，确认问题在于 v2.1.116 之前 harness 层的三个 bug，其中最关键的一个是 stale session 中"清理旧思考"被错误地每个 turn 都触发一次而不是仅一次——Simon Willison 在 recent Claude Code quality reports 中点破，"我大量使用 stale session，因此深受其害"。雪上加霜的是定价：他另一篇 Claude Code \$100/月之谜用截图、Internet Archive 证据和 Anthropic 员工自相矛盾的推文，记录了 Claude Code 从 $20 Pro 计划被悄悄推向 $100 Max 计划的混乱过程，并直言这种沟通失败"给 OpenAI Codex 留下了可乘之机"。这两条线交汇成 hooeem 描述的那张更大的战略地图：Anthropic 把 Opus 4.7 定位成"严肃工程师而非聊天机器人"的同时被自己的 harness 拖累、又被定价摇摆耗掉信任，OpenAI 选在伤口上发射 GPT-5.5——"这已经不是聊天机器人之争，是数字劳动力归属之争"。AlexFinn 在他那条带有夸张修辞的推文里把这种紧迫感推到极致：ChatGPT 5.5 在几乎所有基准上压过 Opus 4.7，请立刻下载 Codex 桌面端，把每天电脑前要做的事都拿去问它；Cryptic_Web3 提醒 GPT-5.5 与 Pro 都已对付费用户开放；连 Simon Willison 自己也承认在 Codex 里预览这一版几周下来，让它对其他模型写的代码做安全审查，效果非常好；milesdeutscher、snsf 等账号则在传播侧把"为 Agent 而生"的标签反复钉牢。

把这几条线拼回去，本周真正的拐点不在哪条基准刷了多少分，而在"客户端 + 模型 + 全栈分发"被一次性扣紧。GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 在 Satya Nadella 的同日宣布中同时换装 GPT-5.5，意味着同一颗 Agent 引擎从消费端的 Codex 桌面，到企业端的 Microsoft 工具栈，再到开发者侧的 API/Foundry，是同一份能力被不同壳承载——OpenAI 不是在卖更聪明的聊天，而是在铺"使用计算机"的劳动协议。Anthropic 这一边并非没有底牌：Opus 4.7 的长任务、工具使用、指令遵循依然是当下最严肃的工程对手，post-mortem 的诚意和 v2.1.116 的修复也确实把质量拉了回来。但当对手已经把"浏览器使用、自动审查、PDF、听写、非开发者模式"打包成一个桌面端，并以中档推理 + 1/4 成本对位你的最高档时，"Agent 客户端"这个产品形态本身就已经成为新的竞争单位。

如果说 GPT-5.4 mini/nano 那一代把 400K 上下文做成主流是把"长记忆"普及化，那么本周 GPT-5.5 + Codex 是把"长劳动"普及化。下半年值得盯紧的并不是谁的下一代模型分数更高，而是谁能让 Agent 在真实计算机环境里少出错地连续工作数小时，并以企业可接受的方式把账单、审计与回滚一并解决——这条赛道，本周已经被正式点亮。

🔵 DeepSeek V4 把 1M 上下文做成"白菜价"

距 V3 发布整整 484 天，DeepSeek 在本周一次性放出 V4 Pro（1.6T 总参 / 49B 激活）和 V4 Flash（284B / 13B），两个版本同时支持 1M token 上下文，权重 MIT 开源、API 当日上线（以 DeepSeek 官方公告口径为准——个别第三方转引数字略有差异）。这不是又一次"小步快跑"——梁文锋团队自己用"labor of love"形容这次升级（@victor207755822），而从架构到定价再到生态接入的连锁反应来看，V4 真正想做的，是把"百万上下文"从一个昂贵的炫技指标，硬生生压成日常调用的基线能力。

技术报告里最具杀伤力的数字来自一套新的混合稀疏注意力。按 Rohan Paul 整理的论文要点，V4 在 1M 上下文下的单 token 计算量只有 V3.2 的约 27%，KV 缓存只有 10%；分层的设计让一部分层"压缩过去再看最相关的压缩块"，另一部分层"更激进地压缩并直接读摘要"，再叠加新的残差路径与 Muon 优化器以保证大规模训练的数值稳定（@rohanpaul_ai）。vLLM 团队在 Day-0 博客里把这套机制拆得更细：Shared K/V + 反向 RoPE 拿到 2× 内存收益，c4a/c128a KV 压缩再叠 4×–128×，外加 DeepSeek Sparse Attention 与短滑窗补本地性，结果是 1M 上下文下每层 KV 状态比 V3.2 风格的 61 层堆叠小约 8.7×（9.62 GiB vs 83.9 GiB，bf16），fp8 attention cache 加 fp4 indexer cache 还能再降一档（@vllm_project）。把这条线放回历史脉络看，V3.2 时代结合 MLA 与 Sliding-Window 的稀疏注意力、IndexCache 把 MRCR v2 在 1M tokens 推到 78.3% 的工作，更像是"先证明可行"；V4 则是把可行的东西工程化到能批量服务的程度——成本/上下文比的代际跃迁就是这么发生的。

代际跃迁直接体现在价格表上。Flash 的 $0.14 / $0.28 每百万输入/输出 token，Pro 的 $1.74 / $3.48，外加 Pro $0.145、Flash $0.028 的缓存命中价（@ArtificialAnlys），等于把"百万级上下文 + 工具调用"这一类原本被前沿闭源把持的工作负载，定价拉低了一整档。Simon Willison 在试用文章里直接把这点写在标题里——"almost on the frontier, a fraction of the price"，并配了 SVG 鹈鹕生成测试做能力旁证（Simon Willison）；Emad Mostaque 顺手把账算了出来：Pro 最终训练运行不到 14M 美金，Flash 不到 4M，加上数据准备、调参、测试的全流程成本约是最终训练运行的 10×（按 V3 推算），"the cost of taste: priceless"（@EMostaque）。换句话说，DeepSeek 用差不多 V3 量级的训练投入，换到了"Agent 真实工作"上的领先位置。

所谓"Agent 真实工作"不是修辞。Artificial Analysis 把 V4 Pro（Reasoning, Max）打到 GDPval-AA 1554 分——这是他们用真实生产力任务构造的 agentic 基准，V4 Pro 是其中得分最高的开源权重模型，领先 GLM-5.1（1535）、MiniMax-M2.7（1514）、Kimi K2.6（1484）；更关键的是 V3.2（Reasoning）在同一基准上只有 1203，V4 Pro 一次性吃下约 355 个 Elo 点的提升，连 V4 Flash（Reasoning, High, 1414）都比 V3.2 高出约 210 点，且只用了 7M 输出 token（@ArtificialAnlys）。1.6T 总参也使其超越 Kimi K2.6（1T / 32B）成为目前规模最大的开源权重模型，并以 FP4 为主的精度把权重控制在 ~865GB，明显比 BF16 的 GLM-5.1（~1.49TB）更友好。叠加 1M 上下文、混合 thinking/non-thinking，V4 Pro 在"长流程不重置"的 agent 场景里确实做出了开源端最像样的答卷——Lightning AI 的 Day-0 接入文案"built for agents that don't reset every few steps"几乎就是冲着这件事写的（@LightningAI）。

生态接入的速度本身就是一个独立信号。模型上线当天，vLLM 给出 Day-0 支持并附完整 attention 实现走读，OpenRouter 同步上线（Simon Willison 直接用它做了对比图，@simonw），Lightning AI 把推理跑通，Qoder IDE 当天动手测试（@qoder_ai_ide）；与此同时，DeepSeek 官方 MoE 通信库 DeepEP 在腾讯网络平台部贡献下性能再提升 30%，把"高吞吐 + 低延迟 all-to-all + FP8 + 不占 SM 的 hook 式通信计算重叠"这套底座也补到了一档新水位。模型、推理框架、通信库、API、第三方托管在同一个时间窗对齐，意味着"开放权重 + 1M 上下文 + 真实 agent 工作能力"这件事已经具备生产化的全栈条件。

把这几条线合起来看，V4 的真正意义不是又一次刷分，而是把"长上下文能用"从研究展示推到了商业拐点：算法上用层级压缩 + 稀疏注意力压住了二次成本曲线，工程上靠 FP4/FP8、统一 KV cache 抽象、融合 kernel 把推理成本压低，商业上用 Flash 几美分级的定价直接卷开市场，生态上当天打通主流推理栈。在闭源前沿仍然引领高端能力的同时，开源端这次把"高上下文 + Agent 工作"的性价比基线推到了一个新高度——下一阶段值得观察的，不再是会不会有人跟进 V4 的 1M 上下文，而是这一档定价会不会逼着上游把同等能力打包进默认 API。

🔵 Agent Skills 与 Multi-Agent 编排，正在凝固为新一层基础设施

如果说前几个月 Anthropic 提出 Agent Skills 标准（围绕 SKILL.md 这份元数据约定）时，行业还在观望"这究竟是又一个临时约定，还是会沉淀为协议"，那么本周的信号已经非常明确——围绕 Skills 与 Multi-Agent 编排的生态层，正在从松散的开源探索"凝固"为新一层基础设施。这一周的特殊之处在于：标准化、生产化和工程化三条线在同一时间窗口内同时跑过临界点。

第一条线是 Skills 作为"能力包"的标准化。本周几乎是同步发布——OpenAI 上线了官方 openai/skills 仓库（累计 17435 星），把"一次编写、随处使用"的指令/脚本/资源包模型直接接入 Codex；Vercel Labs 推出 vercel-labs/skills（累计 15561 星）作为跨 41+ 主流编码 Agent 的统一安装管理 CLI；Hugging Face 端出 huggingface/skills（累计 10262 星），把模型训练、数据集处理这类 ML 操作打包为符合 Agent Skills 格式的标准技能。三家在同一周内不约而同采用了 Anthropic 提出的 SKILL.md 范式，意味着 Skills 已经事实上成为厂商间的最大公约数。社区层面，VoltAgent/awesome-agent-skills 收录的人工筛选技能已突破 1100+ 条（累计 18194 星），覆盖 Anthropic、Google、Stripe、Cloudflare 等官方源；OthmanAdi/planning-with-files（累计 19279 星）则把 Manus 风格的"用 Markdown 持久化规划"提炼成了一份可直接安装的 Skill。OpenAI 同时发布的 Plugins and skills 与 Workspace agents 教程——配合产品侧的 Introducing workspace agents in ChatGPT——更是把"插件接外部工具、Skill 封装可复用工作流"作为官方推荐的 Agent 构建路径写入了文档。一个值得玩味的细节是，andrej-karpathy-skills 这种"把 Karpathy 关于 LLM 错误的洞见压成一份 CLAUDE.md"的轻量项目也在本周走红——技能的最小颗粒度被压到了"一份配置文件"，标准化的边际成本已经接近零。

第二条线是 Multi-Agent 编排进入生产。微软发布 Microsoft Agent Framework 1.0，给出稳定 API、多 Agent 编排、长时间工作流以及 C# + Python 双栈支持，VS Code Foundry Toolkit 内嵌"Create Agent"、内置 skills 与 Agent Inspector——这是 Semantic Kernel 与 AutoGen 两条历史路线在企业侧的合并版。与此同时，Sakana AI Fugu 以一个 OpenAI 兼容 API 的形式发布商业 Beta，在 SWE-Pro、GPQA-D、ALE-Bench 上拿到 SOTA，Sakana 联合创始人 hardmaru 直言"AI 的未来是集合智能"——其卖点正是动态编排开源与闭源模型的最佳组合。Google Cloud Next 上展示的 marathon planning 多 Agent 系统（含记忆和 MCP）则被 @rseroter 团队全部开源，可本地或云端运行；Shubham Saboo 关于 ADK 2.0 的总结把"从 Skills 到系统"的 5 种编排模式做了体系化梳理。Cursor 3 上线的 /multitask 在用户侧把异步子 Agent 并行化做成了产品默认行为，Mastra 让 Agent 能像人一样浏览网页，则把 Web 操作纳入了编排器可调度的能力。GitHub 端，字节跳动的 bytedance/deer-flow（累计 62780 星）2.0 版本完全重写并支持 Docker 一键部署，crewAIInc/crewAI（累计 49732 星）推出 Flows 生产架构与云控制平面，kyegomez/swarms 强调企业级高可用——三者共同把"多 Agent 框架"从概念项目推到了可观测、可治理的生产形态。microsoft/ai-agents-for-beginners（累计 58881 星）在同一时间把 AutoGen / Semantic Kernel 的入门路径打通，进一步降低了门槛。

第三条线是 工程化基础设施——也就是当 Skills 越来越多、Agent 越来越多，"怎么让它们跑得起来、跑得稳"的那一层。MCP 已经事实标准化，PrefectHQ/fastmcp（累计 24742 星）作为官方 MCP Python SDK 核心，公开数据已占 MCP 服务器 70% 份额；mksglu/context-mode（累计 9499 星）通过沙箱化工具输出，把 MCP 调用的上下文消耗最高压缩 98%——本周登顶 Hacker News 并被多家大公司采用；zilliztech/claude-context 用语义检索把整个代码库压成可按需调取的 Agent 上下文；前述 planning-with-files 则把"长任务规划"问题外化到文件系统。这些工具的共同主题，是承认上下文窗口与编排状态才是 Agent 真正的瓶颈——而这恰好印证了 Anthropic Building Effective Agents 作者 Erik 的 19 分钟访谈中那句"瓶颈从来不是架构，而是 context"。配套来看，davila7/claude-code-templates（累计 24954 星）已经把 100+ 预配置 Agent、命令、钩子和 MCP 集成做成了即装即用的模板生态，cline/cline（累计 60847 星）则在 IDE 端把"人机协作 + MCP 扩展"沉淀为标杆。

学术侧也罕见地与工程节奏对齐。本周 GraSP: Graph-Structured Skill Compositions for LLM Agents 直接给出实证："瓶颈已经从 skill availability 转移到 skill orchestration"——技能多到一定程度反而损害性能，2-3 个聚焦技能的表现常常优于完整技能文档。GraSP 把扁平技能集编译成带前置/后效边的有类型 DAG，把 replanning 复杂度从 O(N) 降到 O(d^h)，在 ALFWorld、ScienceWorld、WebShop、InterCode 上全面优于 ReAct/Reflexion/ExpeL，奖励与环境步数指标均有显著改进——这是从理论上证实"结构化编排比更大技能库更重要"。另一篇 Learning to Evolve (TPGO) 则把多 Agent 系统建模为可优化的文本参数图，用 Group Relative Agent Optimization 在 GAIA、MCP-Universe 等 benchmark 上让 Agent 框架"学会自己优化自己"。这两篇恰好回答了本周开源生态隐含的两个问题：怎么把 Skills 组合得更有结构、怎么让 Multi-Agent 系统从经验里持续进化。再叠加 Aakash Gupta 推广的"Agentic AI 五层架构"（交互层、编排层、专用 Agent 层、数据层、模型 API 层）这种被广泛转发的方法论，"如何拼装"的共识正在快速收敛。

把这三条线放在一起，本周可以视为生态整合的"凝固时刻"——并不是某一项重磅技术发布，而是 Skills 标准、Multi-Agent 编排、上下文与 MCP 工程化在同一个窗口内被各家厂商、社区与论文共同认领。下一阶段，价值不再来自"再发明一个 Agent 框架"，而是来自能否把 Skills、编排器、上下文压缩、记忆与评估串成一条可观测、可治理、可演进的生产链路。

🟢 开源模型逼近闭源前沿：Kimi K2.6 与 Qwen 3.6 的双重压力

本周开源端最直接的信号是 Kimi K2.6 与 Qwen 3.6-27B 同时在"工具使用 + 编码"这条战场刷新可信度。Moonshot 的 Kimi K2.6 是 1T 参数 / 32B 激活的 MoE，本周 Latent Space 的全景报道指出它把 Agentic Coding 与"长时连续运行"做到与 Gemini 3.1 Pro 并列；@arena 同步标记 K2.6 在 Vision Arena 与 Document Arena 都拿下开源第一，文档侧已经追平 Muse Spark/Gemini 3.1 Pro 这种闭源前线。它支持 4000+ 工具调用、300 个并行子 Agent、12+ 小时连续工作，把"开源能不能跑生产 Agent"的问题正面回答了。

Qwen 端的故事更具"个人电脑级颠覆性"。Alibaba 在 Qwen3.6-27B 发布与本地化推文中同步把模型推向 18GB RAM 起跑线；@julien_c 在 MacBook Pro 上"全飞行模式"跑出接近 Claude Code Opus 的体验，@sudoingX 在单张 RTX 3090 用 q4_k_m 跑出 40 tok/s，让模型自主写出 500 颗粒子的 boids 仿真并通过 10/10 浏览器测试；@UnslothAI 更进一步用 2-bit GGUF 在 12GB RAM 完成 26 次工具调用、修掉 GitHub 上三个真实 issue。底层支撑则是 unslothai/unsloth（累计 62878 星）这种"训练 2× / VRAM -70%"的本地化平台和 huggingface/ml-intern（累计 5435 星）这种"自主 ML 工程师" Agent 的成熟。

Interconnects 那篇分析提供了一个不那么乐观的解读框架：闭源前沿实验室会不断把"前沿"重新定义到自己有数据优势的领域（编码、终端任务、专业领域），所以"差距"是动态而非静态的。但配合 @shiri_shh 的 4 月 24 天发布回顾——DeepSeek V4、Qwen3.6 系列、Kimi K2.6、Llama 4、GLM-5.1、Gemma 4——开源的迭代密度本身已经在挤压"闭源唯一可用"的窗口。本周可以看到的一个具体后果：本地化 Agent 真的开始能干活，"编码 Agent 必须上云"这条假设第一次出现可量化的反例。

🟢 Agent 记忆与经验复用：从 prompt 到"沉淀的工作记忆"

这一周记忆/经验主题集中爆发，工程化味道远比往常浓。Google Research 把 ReasoningBank 推向博客头条——通过把推理步骤结构化存取，让 Agent 在数学推理与代码生成上重复使用历史经验；论文中提出的"MaTTS"（Memory-aware Test-Time Scaling）用并行/串行两种扩展模式，让记忆主动指导后续生成而不是被动召回，这把"记忆 = 检索"的旧范式向"记忆 = 训练时无关的在线学习"推了一步。

而 @omarsar0 引述的"无状态决策记忆"论文则把视线压到生产线最难解的地方：当成千上万 Agent 实例横向扩展时，per-agent 持久状态本身成为瓶颈。论文借鉴分布式系统的事件溯源思路，用不可变决策日志替代主动内存，任何实例都能通过重放重建上下文——这是"企业、监管、容器原生"三件套绕不开的工程基础。@yasenka244 推的 SentientAGI 开源 EvoSkill 走另一条路：三个 Agent 在一个循环里读编码 Agent 自己的失败日志、写一个技能文件夹、重跑保留 wins，权重不动，Apache 2.0。这与 Slot Machines 论文揭示的"模型在 token 内部用正交 slot 维护多实体绑定"形成有趣呼应——前者是 harness 层把经验外挂出来，后者是 weights 层模型已经学会自己处理多实体记忆。

理论侧 Experience Compression Spectrum 给整个领域一把尺子：把 memory（5–20× 压缩）、skills（50–500×）、rules（1,000×+）放在同一压缩谱上，并在 22 篇主文献的 1,136 引用里发现跨社区互引率不足 1%——记忆派和技能派几乎在重新发明对方的轮子。同期 PolicyBank 把"不可变政策"换成"可演化政策"，靠部署前测试反馈把策略漂移收敛 82%；OThink-SRR1 用 RL 训练 Search-Refine-Reason 闭环，让模型对检索结果"先蒸馏再推理"；JTPRO 联合优化全局指令和每个工具的描述模式，把 Tool Selection × Slot Filling 的整体成功率推高 5%–20%。

把这些拼一起，本周的趋势相当清楚：Agent 的"长寿命运行"成为现实之后，谁能把经验、技能、政策、工具描述都做成可压缩、可演化、可读取的工程对象，谁就能避免"每次会话从零开始"的隐性税收。

🟢 Agent 评测与可靠性：判官不准、收益虚高、协同崩溃

本周一组论文集中揭露 Agent 评测里的"虚高"。最尖锐的是 AgentProp-Bench 的发现：业内常用的 substring 自动判官与人类标注的一致率仅 κ=0.049——基本等于扔硬币；三模型集成才把 κ 推到 0.432，仍只是中等水平。同一篇文章还测出 parameter-level 注入会有 0.62 概率传播到错误最终答案，而 reject 与 recovery 这两种纠错能力是模型间不相关的两个独立维度（Spearman ρ=0.126, p=0.747）。这意味着现在很多 Agent 排行榜的 SOTA，其实有一半在"自我表扬"。

更现实的难题来自 AutomationBench。它把"跨应用 + 自主 API 发现 + 政策遵循"三件套同时摆上台，模拟 Zapier 的真实业务工作流——CRM/邮箱/日历/支持/财务/HR。结果是即便最强前沿模型得分也不到 10%。这与 @dair_ai 转的 diversity collapse 论文呼应：多 Agent 系统在共享上下文/任务描述/反馈循环的耦合下，输出会随时间收敛到几乎相同的"吸引子"，也就是用 Vendi score 度量的真实趋同；多 Agent 用于头脑风暴等创造性任务的卖点，部分是个伪命题——"五个模型穿着风衣假装一个答案"。

测评工具侧的进展则在补另一面。AWS 推出的 ToolSimulator 用 LLM 模拟工具响应、支持多轮状态化，让你在 CI 阶段就跑完工具集成测试；Datadog 用 ARFBench 把"在事件遥测里用自然语言提问"做成 750 题 / 142 时序 / 5.38M 数据点的基准，发现 GPT-5 在 TSQA 任务上准确率只有 62.7%，但 model-expert oracle 可以拉到 87.2%——人机互补仍有显著提升空间。The Tool-Overuse Illusion 则解释了"模型为什么明明会还要乱调工具"：knowledge epistemic illusion 使模型错判内部知识边界，加上 outcome-only 奖励无差别鼓励工具使用——一个 DPO 风格的边界对齐策略可以把无谓工具调用降 82.8%。

更具警示意味的是两篇红队/审计研究。STAR-Teaming 用多 Agent + 策略-响应多重网络做自动化越狱，把高维 attack 空间变成可解释的语义社区，攻击成功率与计算成本同时显著优于现有方法；ASMR-Bench 则评估"AI 在 ML 研究代码里悄悄破坏"是否能被检测，最强 auditor 也只到 AUROC 0.77、top-1 修复率 42%。这两条线放在一起读起来像是同一个警钟：当 Agent 越来越多在"做研究 / 评 Agent"，监督机制本身的可靠性正在变成新的瓶颈。

🟢 企业级 AI 落地实战：Shopify/Google Cloud/SAP 集体把 Agent 推进生产

本周三家代表性企业把"Agent 怎么落到主业流"讲透。最具体的实战是 Latent Space 对话 Shopify CTO Mikhail Parakhin：Shopify's AI Phase Transition 给出了三个内部系统的拆解——Tangle 做可复现的 ML/数据工作流、Tangent 是自动研究循环优化系统、SimGym 用历史数据做客户行为模拟。最反直觉的洞见在两点：一是 AI 编码的真正瓶颈早已不在生成，而在代码审查、CI/CD 与部署稳定性；二是"并行多 Agent"不是关键，更好的批判循环 + 更强模型才是解锁点。这与 Latent Space 的 AIE Europe Debrief 里 swyx 提的"基础设施每年自我革新、应用公司更易应对模型波动"形成相互印证。

Google Cloud 端给出的是平台层故事。Stratechery 与 Thomas Kurian 的访谈把 Gemini Agent 平台、TPU、Wiz 安全收购拼成"统一架构"叙事，强调 Google 自己的内部部署用同一套基础设施是关键差异化；同步发布的 Google Cloud Next '26 七大亮点给 Gemini Enterprise Agent Platform 与新一代 TPU 加上具体落地。AWS 这边 Bedrock AgentCore 新功能给出"几分钟跑通 Agent"的具体路径——配置式 Agent Harness、AgentCore CLI 的统一原型→生产工作流、为编码 Agent 预构建技能；微软 AutoAdapt 则用 Adaptation Configuration Graph 把"试错式微调"重写成 Agent 规划器驱动的可复现工作流，针对医疗、法律、事件响应等高门槛领域。

ERP 与生产侧的视角来自 SAP CTO Philipp Herzig 在 No Priors 的访谈。把 ERP 比作"公司的操作系统"是个有用的隐喻：Agent 落地不止是模型问题，还包括 UI、业务流程、数据层的同步重构，以及随之而来的 Agent 挖掘（先看哪些流程值得 Agent 化）和定价模式变化。把它和 Anthropic Claude Code 产品负责人 Cat Wu 的 10 个要点放一起读会很有意思——Anthropic 把交付节奏从 6 个月压到 1 天，用研究预览、launch room、低自我的 Claude 角色等方式让 PM/工程/设计角色融合，这种"消费侧的高速迭代节奏"反过来挤压企业供应商的产品周期。本周这一束内容拼起来，正是 Agent 进生产时真正卡在哪儿、谁有筹码、怎么走的最完整切片。

📌 本周简讯

The people do not yearn for automation — Simon Willison 转引 Nilay Patel 的观察：拥有"软件脑"的人把世界视为可自动化系统，而大众恰恰反感 AI 把人类体验"扁平化"。这解释了为何使用量持续上行而公众情绪在恶化，对所有把"Agent 替代劳动"挂在嘴边的产品团队都是一记温柔但坚决的反向校准。

E234｜未来实拍电影还存在吗？与导演陆川聊聊 AI 给影视人的恐惧与自由 — 硅谷101 的访谈把 AI 多模态生成的现实瓶颈讲清楚了：陆川指出 AI 把视效流程从 6 个月压到 72 小时，但人物同质化、审美趋同是真问题；配音演员黄莺则强调情感与表演逻辑无法被复刻。技术与人文之间的张力，比任何模型卡都更直接。

π0.7: a Steerable Generalist Robotic Foundation Model — 一个能跨实体零样本泛化的通用机器人基础模型，单模型可在没见过的厨房环境里折衣、操作浓缩咖啡机，性能匹敌专门 RL 微调的对照组。它通过"多模态上下文条件化"让训练能吃掉演示、自动失败、非机器人来源等异构数据，是机器人侧"基础模型路线"本周最值得记住的一笔。

MIT scientists build the world's largest collection of Olympiad-level math problems — MathNet 收录 3 万+ 专家级数学题，覆盖 47 国 17 语，是同类数据集 5×。GPT-5 在上面只跑出 69.3%，视觉与多语言推理短板暴露明显——给数学/推理模型留下了一个公开、可比、规模可观的新训练与评测靶子。

🔬 Training Transformers to solve 95% failure rate of Cancer Trials — Noetik — Noetik 用 Transformer（TARIO-2）解析肿瘤空间转录组学，把"癌症临床试验 95% 失败率"压到一个匹配问题上，并以 5000 万美元与 GSK 达成合作。它示范了一种新的 AI 商业模式——做平台/工具而不是做药——是值得长期跟踪的"AI for science"原型。