type
Post
status
Published
date
Apr 25, 2026 13:20
slug
ai-weekly-2026-W17
summary
本周 AI 圈密度极高的三件事,恰好可以拼成一句完整的判断——"模型在卷,Agent 在长出工程层"。OpenAI 把 GPT-5.5 与重构后的 Codex 一并放出,把 Agent 的能力面从写代码扩到操作整台计算机;DeepSeek 蛰伏 484 天后用 V4 Pro/Flash 把"百万上下文 + 真实工作 Agent"的成本拉低一整档;与此同时 OpenAI、Vercel、Hugging Face 同步端出官方 Skills 仓库,Microsoft Agent Framework 1.0 正式发布、Sakana Fugu 进入商业 Beta、Google Cloud Next 的 marathon planning 多 Agent 系统直接开源——围绕 Skills 与 Multi-Agent 编排的生态层集中跨过生产化门槛。
这之外还有三条暗线值得跟踪:Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线,请看"客户端 + 模型 + 编排"被一次性扣紧的拐点;如果只读一篇评测,AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049,对所有做 Agent 的团队都是一次反向校准。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority
📊 本周概览
本周 AI 圈密度极高的三件事,恰好可以拼成一句完整的判断——"模型在卷,Agent 在长出工程层"。OpenAI 把 GPT-5.5 与重构后的 Codex 一并放出,把 Agent 的能力面从写代码扩到操作整台计算机;DeepSeek 蛰伏 484 天后用 V4 Pro/Flash 把"百万上下文 + 真实工作 Agent"的成本拉低一整档;与此同时 OpenAI、Vercel、Hugging Face 同步端出官方 Skills 仓库,Microsoft Agent Framework 1.0 正式发布、Sakana Fugu 进入商业 Beta、Google Cloud Next 的 marathon planning 多 Agent 系统直接开源——围绕 Skills 与 Multi-Agent 编排的生态层集中跨过生产化门槛。
这之外还有三条暗线值得跟踪:Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线,请看"客户端 + 模型 + 编排"被一次性扣紧的拐点;如果只读一篇评测,AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049,对所有做 Agent 的团队都是一次反向校准。
🔵 GPT-5.5 与 Codex Superapp:从聊天到"计算机劳动"的拐点
本周 OpenAI 同时放出了 GPT-5.5(含 Pro)与重构后的 Codex 桌面端,并把模型同步推上 GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 全线。这不是一次寻常的版本升级——它把"模型 + 客户端 + 技能"打成一个组合包,把 Agent 的能力面从"写代码"扩到"操作整台计算机",也直接撞上 Anthropic Opus 4.7 这场刚刚布好的防线。
从基准看,GPT-5.5 这一代显然是按"代理工作"而非"对话回答"被训练出来的。swyx 给出的成绩单一口气列了 82.7% Terminal-Bench 2.0、58.6% SWE-Bench Pro、84.9% GDPval、98.0% Tau2-bench Telecom、80.5% BixBench,并强调它在 Codex 内做到 400K 上下文、API 端 1M,新定价 $5/M 输入、$30/M 输出 token,"Codex 把自己的推理速度又提了 20%"——这是首个与 GB200/GB300 NVL72 协同设计的代际。ARC Prize 单独发了一组数:ARC-AGI-2 在 xHigh 设置下达到 85.0%、单题成本 \$1.87,Greg Kamradt 进一步指出这一成绩"以 Gemini Deep Think 几分之一的成本"刷成 SOTA,而低推理档位已经几乎没有意义,中等推理才是新默认值。Latent Space 的 GPT-5.5 and OpenAI Codex Superapp 把这一点说得更直白:中等档位的 GPT-5.5 已经能与 Claude Opus 4.7 最高档位打平,成本只有四分之一——性价比帕累托被整体推到了新位置,而 reach_vb 观察到的"输出 token 数显著降低" 说明这种成本优势主要来自模型层面的 token 效率——也就是单位任务的 token 消耗下降,而不是单纯的 API 价格让利。
如果 GPT-5.5 是"更强的引擎",Codex 这一版才是 OpenAI 真正想押注的方向。Codex 团队成员 thsottiaux 一口气列出新功能:完整的浏览器使用、全局听写、non-dev 模式、比 yolo 更安全的自动审查(auto-review)模式、应用内文档与 PDF 查看,再加上 GPT-5.5 本身。James Sun 把 Browser Use 的意义讲得最清楚:现在你可以让 Codex 构建前端,再像真实用户一样点击测试,看 DOM 也看 console 与 network 日志,自己抓 bug 自己改——build & verify 闭环第一次在本地真正合上。Greg Brockman 顺势宣布 Codex + 5.5 已经不只是给程序员的工具,电子表格、幻灯片以及任何"在电脑前完成的工作"都进入它的射程;OpenAI 官方教程 Top 10 uses for Codex at work 与 What is Codex? 配合 How to get started with Codex 把这种"超越聊天"的定位写成可上手的操作手册,加上 Speeding up agentic workflows with WebSockets in the Responses API 给出 connection-scoped 缓存与 WebSocket 持久连接的工程范式,整套基础设施已经按"长跑型 Agent 客户端"被重新打磨过。Ethan Mollick 在 Sign of the future: GPT-5.5 中用 3D 城镇模拟与图像生成做了感性试驾,并把视角拉到"模型 + 应用 + 工具的整合本身才是产品"——而 Simon Willison 的 pelican 测试 与对 ChatGPT Images 2.0 的浣熊评测 则从开发者侧验证了模型在生成质量与 SVG 复杂度上的肉眼可见跃迁。值得对照阅读的是 GPT-5.5 System Card 与官方 Introducing GPT-5.5:OpenAI 的措辞已从"最聪明的模型"切换到"为复杂目标、工具使用、自我检查与持续推进任务而生",连 Sam Altman 自己也只用一句轻描淡写的 更多 Codex 新功能即将到来,和新模型打成一个有趣的小捆绑,把焦点引向产品组合而非模型单点;官方账号 与 GPT-5.5/Pro API 同步开放的公告 进一步把"完成计算机劳动的新方式"写成本周的主叙事。
这一切落地的时机对 Anthropic 来说异常难堪。过去一个月社区不断抱怨 Claude Code "变笨",ClaudeDevs 这周才发出官方 post-mortem,确认问题在于 v2.1.116 之前 harness 层的三个 bug,其中最关键的一个是 stale session 中"清理旧思考"被错误地每个 turn 都触发一次而不是仅一次——Simon Willison 在 recent Claude Code quality reports 中点破,"我大量使用 stale session,因此深受其害"。雪上加霜的是定价:他另一篇 Claude Code \$100/月之谜 用截图、Internet Archive 证据和 Anthropic 员工自相矛盾的推文,记录了 Claude Code 从 $20 Pro 计划被悄悄推向 $100 Max 计划的混乱过程,并直言这种沟通失败"给 OpenAI Codex 留下了可乘之机"。这两条线交汇成 hooeem 描述的那张更大的战略地图:Anthropic 把 Opus 4.7 定位成"严肃工程师而非聊天机器人"的同时被自己的 harness 拖累、又被定价摇摆耗掉信任,OpenAI 选在伤口上发射 GPT-5.5——"这已经不是聊天机器人之争,是数字劳动力归属之争"。AlexFinn 在他那条带有夸张修辞的推文里把这种紧迫感推到极致:ChatGPT 5.5 在几乎所有基准上压过 Opus 4.7,请立刻下载 Codex 桌面端,把每天电脑前要做的事都拿去问它;Cryptic_Web3 提醒 GPT-5.5 与 Pro 都已对付费用户开放;连 Simon Willison 自己也承认 在 Codex 里预览这一版几周下来,让它对其他模型写的代码做安全审查,效果非常好;milesdeutscher、snsf 等账号则在传播侧把"为 Agent 而生"的标签反复钉牢。
把这几条线拼回去,本周真正的拐点不在哪条基准刷了多少分,而在"客户端 + 模型 + 全栈分发"被一次性扣紧。GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 在 Satya Nadella 的同日宣布中同时换装 GPT-5.5,意味着同一颗 Agent 引擎从消费端的 Codex 桌面,到企业端的 Microsoft 工具栈,再到开发者侧的 API/Foundry,是同一份能力被不同壳承载——OpenAI 不是在卖更聪明的聊天,而是在铺"使用计算机"的劳动协议。Anthropic 这一边并非没有底牌:Opus 4.7 的长任务、工具使用、指令遵循依然是当下最严肃的工程对手,post-mortem 的诚意和 v2.1.116 的修复也确实把质量拉了回来。但当对手已经把"浏览器使用、自动审查、PDF、听写、非开发者模式"打包成一个桌面端,并以中档推理 + 1/4 成本对位你的最高档时,"Agent 客户端"这个产品形态本身就已经成为新的竞争单位。
如果说 GPT-5.4 mini/nano 那一代把 400K 上下文做成主流是把"长记忆"普及化,那么本周 GPT-5.5 + Codex 是把"长劳动"普及化。下半年值得盯紧的并不是谁的下一代模型分数更高,而是谁能让 Agent 在真实计算机环境里少出错地连续工作数小时,并以企业可接受的方式把账单、审计与回滚一并解决——这条赛道,本周已经被正式点亮。
🔵 DeepSeek V4 把 1M 上下文做成"白菜价"
距 V3 发布整整 484 天,DeepSeek 在本周一次性放出 V4 Pro(1.6T 总参 / 49B 激活)和 V4 Flash(284B / 13B),两个版本同时支持 1M token 上下文,权重 MIT 开源、API 当日上线(以 DeepSeek 官方公告口径为准——个别第三方转引数字略有差异)。这不是又一次"小步快跑"——梁文锋团队自己用"labor of love"形容这次升级(@victor207755822),而从架构到定价再到生态接入的连锁反应来看,V4 真正想做的,是把"百万上下文"从一个昂贵的炫技指标,硬生生压成日常调用的基线能力。
技术报告里最具杀伤力的数字来自一套新的混合稀疏注意力。按 Rohan Paul 整理的论文要点,V4 在 1M 上下文下的单 token 计算量只有 V3.2 的约 27%,KV 缓存只有 10%;分层的设计让一部分层"压缩过去再看最相关的压缩块",另一部分层"更激进地压缩并直接读摘要",再叠加新的残差路径与 Muon 优化器以保证大规模训练的数值稳定(@rohanpaul_ai)。vLLM 团队在 Day-0 博客里把这套机制拆得更细:Shared K/V + 反向 RoPE 拿到 2× 内存收益,c4a/c128a KV 压缩再叠 4×–128×,外加 DeepSeek Sparse Attention 与短滑窗补本地性,结果是 1M 上下文下每层 KV 状态比 V3.2 风格的 61 层堆叠小约 8.7×(9.62 GiB vs 83.9 GiB,bf16),fp8 attention cache 加 fp4 indexer cache 还能再降一档(@vllm_project)。把这条线放回历史脉络看,V3.2 时代结合 MLA 与 Sliding-Window 的稀疏注意力、IndexCache 把 MRCR v2 在 1M tokens 推到 78.3% 的工作,更像是"先证明可行";V4 则是把可行的东西工程化到能批量服务的程度——成本/上下文比的代际跃迁就是这么发生的。
代际跃迁直接体现在价格表上。Flash 的 $0.14 / $0.28 每百万输入/输出 token,Pro 的 $1.74 / $3.48,外加 Pro $0.145、Flash $0.028 的缓存命中价(@ArtificialAnlys),等于把"百万级上下文 + 工具调用"这一类原本被前沿闭源把持的工作负载,定价拉低了一整档。Simon Willison 在试用文章里直接把这点写在标题里——"almost on the frontier, a fraction of the price",并配了 SVG 鹈鹕生成测试做能力旁证(Simon Willison);Emad Mostaque 顺手把账算了出来:Pro 最终训练运行不到 14M 美金,Flash 不到 4M,加上数据准备、调参、测试的全流程成本约是最终训练运行的 10×(按 V3 推算),"the cost of taste: priceless"(@EMostaque)。换句话说,DeepSeek 用差不多 V3 量级的训练投入,换到了"Agent 真实工作"上的领先位置。
所谓"Agent 真实工作"不是修辞。Artificial Analysis 把 V4 Pro(Reasoning, Max)打到 GDPval-AA 1554 分——这是他们用真实生产力任务构造的 agentic 基准,V4 Pro 是其中得分最高的开源权重模型,领先 GLM-5.1(1535)、MiniMax-M2.7(1514)、Kimi K2.6(1484);更关键的是 V3.2(Reasoning)在同一基准上只有 1203,V4 Pro 一次性吃下约 355 个 Elo 点的提升,连 V4 Flash(Reasoning, High, 1414)都比 V3.2 高出约 210 点,且只用了 7M 输出 token(@ArtificialAnlys)。1.6T 总参也使其超越 Kimi K2.6(1T / 32B)成为目前规模最大的开源权重模型,并以 FP4 为主的精度把权重控制在 ~865GB,明显比 BF16 的 GLM-5.1(~1.49TB)更友好。叠加 1M 上下文、混合 thinking/non-thinking,V4 Pro 在"长流程不重置"的 agent 场景里确实做出了开源端最像样的答卷——Lightning AI 的 Day-0 接入文案"built for agents that don't reset every few steps"几乎就是冲着这件事写的(@LightningAI)。
生态接入的速度本身就是一个独立信号。模型上线当天,vLLM 给出 Day-0 支持并附完整 attention 实现走读,OpenRouter 同步上线(Simon Willison 直接用它做了对比图,@simonw),Lightning AI 把推理跑通,Qoder IDE 当天动手测试(@qoder_ai_ide);与此同时,DeepSeek 官方 MoE 通信库 DeepEP 在腾讯网络平台部贡献下性能再提升 30%,把"高吞吐 + 低延迟 all-to-all + FP8 + 不占 SM 的 hook 式通信计算重叠"这套底座也补到了一档新水位。模型、推理框架、通信库、API、第三方托管在同一个时间窗对齐,意味着"开放权重 + 1M 上下文 + 真实 agent 工作能力"这件事已经具备生产化的全栈条件。
把这几条线合起来看,V4 的真正意义不是又一次刷分,而是把"长上下文能用"从研究展示推到了商业拐点:算法上用层级压缩 + 稀疏注意力压住了二次成本曲线,工程上靠 FP4/FP8、统一 KV cache 抽象、融合 kernel 把推理成本压低,商业上用 Flash 几美分级的定价直接卷开市场,生态上当天打通主流推理栈。在闭源前沿仍然引领高端能力的同时,开源端这次把"高上下文 + Agent 工作"的性价比基线推到了一个新高度——下一阶段值得观察的,不再是会不会有人跟进 V4 的 1M 上下文,而是这一档定价会不会逼着上游把同等能力打包进默认 API。
🔵 Agent Skills 与 Multi-Agent 编排,正在凝固为新一层基础设施
如果说前几个月 Anthropic 提出 Agent Skills 标准(围绕 SKILL.md 这份元数据约定)时,行业还在观望"这究竟是又一个临时约定,还是会沉淀为协议",那么本周的信号已经非常明确——围绕 Skills 与 Multi-Agent 编排的生态层,正在从松散的开源探索"凝固"为新一层基础设施。这一周的特殊之处在于:标准化、生产化和工程化三条线在同一时间窗口内同时跑过临界点。
第一条线是 Skills 作为"能力包"的标准化。本周几乎是同步发布——OpenAI 上线了官方 openai/skills 仓库(累计 17435 星),把"一次编写、随处使用"的指令/脚本/资源包模型直接接入 Codex;Vercel Labs 推出 vercel-labs/skills(累计 15561 星)作为跨 41+ 主流编码 Agent 的统一安装管理 CLI;Hugging Face 端出 huggingface/skills(累计 10262 星),把模型训练、数据集处理这类 ML 操作打包为符合 Agent Skills 格式的标准技能。三家在同一周内不约而同采用了 Anthropic 提出的 SKILL.md 范式,意味着 Skills 已经事实上成为厂商间的最大公约数。社区层面,VoltAgent/awesome-agent-skills 收录的人工筛选技能已突破 1100+ 条(累计 18194 星),覆盖 Anthropic、Google、Stripe、Cloudflare 等官方源;OthmanAdi/planning-with-files(累计 19279 星)则把 Manus 风格的"用 Markdown 持久化规划"提炼成了一份可直接安装的 Skill。OpenAI 同时发布的 Plugins and skills 与 Workspace agents 教程——配合产品侧的 Introducing workspace agents in ChatGPT——更是把"插件接外部工具、Skill 封装可复用工作流"作为官方推荐的 Agent 构建路径写入了文档。一个值得玩味的细节是,andrej-karpathy-skills 这种"把 Karpathy 关于 LLM 错误的洞见压成一份 CLAUDE.md"的轻量项目也在本周走红——技能的最小颗粒度被压到了"一份配置文件",标准化的边际成本已经接近零。
第二条线是 Multi-Agent 编排进入生产。微软发布 Microsoft Agent Framework 1.0,给出稳定 API、多 Agent 编排、长时间工作流以及 C# + Python 双栈支持,VS Code Foundry Toolkit 内嵌"Create Agent"、内置 skills 与 Agent Inspector——这是 Semantic Kernel 与 AutoGen 两条历史路线在企业侧的合并版。与此同时,Sakana AI Fugu 以一个 OpenAI 兼容 API 的形式发布商业 Beta,在 SWE-Pro、GPQA-D、ALE-Bench 上拿到 SOTA,Sakana 联合创始人 hardmaru 直言"AI 的未来是集合智能"——其卖点正是动态编排开源与闭源模型的最佳组合。Google Cloud Next 上展示的 marathon planning 多 Agent 系统(含记忆和 MCP)则被 @rseroter 团队全部开源,可本地或云端运行;Shubham Saboo 关于 ADK 2.0 的总结 把"从 Skills 到系统"的 5 种编排模式做了体系化梳理。Cursor 3 上线的 /multitask 在用户侧把异步子 Agent 并行化做成了产品默认行为,Mastra 让 Agent 能像人一样浏览网页,则把 Web 操作纳入了编排器可调度的能力。GitHub 端,字节跳动的 bytedance/deer-flow(累计 62780 星)2.0 版本完全重写并支持 Docker 一键部署,crewAIInc/crewAI(累计 49732 星)推出 Flows 生产架构与云控制平面,kyegomez/swarms 强调企业级高可用——三者共同把"多 Agent 框架"从概念项目推到了可观测、可治理的生产形态。microsoft/ai-agents-for-beginners(累计 58881 星)在同一时间把 AutoGen / Semantic Kernel 的入门路径打通,进一步降低了门槛。
第三条线是 工程化基础设施——也就是当 Skills 越来越多、Agent 越来越多,"怎么让它们跑得起来、跑得稳"的那一层。MCP 已经事实标准化,PrefectHQ/fastmcp(累计 24742 星)作为官方 MCP Python SDK 核心,公开数据已占 MCP 服务器 70% 份额;mksglu/context-mode(累计 9499 星)通过沙箱化工具输出,把 MCP 调用的上下文消耗最高压缩 98%——本周登顶 Hacker News 并被多家大公司采用;zilliztech/claude-context 用语义检索把整个代码库压成可按需调取的 Agent 上下文;前述 planning-with-files 则把"长任务规划"问题外化到文件系统。这些工具的共同主题,是承认上下文窗口与编排状态才是 Agent 真正的瓶颈——而这恰好印证了 Anthropic Building Effective Agents 作者 Erik 的 19 分钟访谈 中那句"瓶颈从来不是架构,而是 context"。配套来看,davila7/claude-code-templates(累计 24954 星)已经把 100+ 预配置 Agent、命令、钩子和 MCP 集成做成了即装即用的模板生态,cline/cline(累计 60847 星)则在 IDE 端把"人机协作 + MCP 扩展"沉淀为标杆。
学术侧也罕见地与工程节奏对齐。本周 GraSP: Graph-Structured Skill Compositions for LLM Agents 直接给出实证:"瓶颈已经从 skill availability 转移到 skill orchestration"——技能多到一定程度反而损害性能,2-3 个聚焦技能的表现常常优于完整技能文档。GraSP 把扁平技能集编译成带前置/后效边的有类型 DAG,把 replanning 复杂度从 O(N) 降到 O(d^h),在 ALFWorld、ScienceWorld、WebShop、InterCode 上全面优于 ReAct/Reflexion/ExpeL,奖励与环境步数指标均有显著改进——这是从理论上证实"结构化编排比更大技能库更重要"。另一篇 Learning to Evolve (TPGO) 则把多 Agent 系统建模为可优化的文本参数图,用 Group Relative Agent Optimization 在 GAIA、MCP-Universe 等 benchmark 上让 Agent 框架"学会自己优化自己"。这两篇恰好回答了本周开源生态隐含的两个问题:怎么把 Skills 组合得更有结构、怎么让 Multi-Agent 系统从经验里持续进化。再叠加 Aakash Gupta 推广的"Agentic AI 五层架构"(交互层、编排层、专用 Agent 层、数据层、模型 API 层)这种被广泛转发的方法论,"如何拼装"的共识正在快速收敛。
把这三条线放在一起,本周可以视为生态整合的"凝固时刻"——并不是某一项重磅技术发布,而是 Skills 标准、Multi-Agent 编排、上下文与 MCP 工程化在同一个窗口内被各家厂商、社区与论文共同认领。下一阶段,价值不再来自"再发明一个 Agent 框架",而是来自能否把 Skills、编排器、上下文压缩、记忆与评估串成一条可观测、可治理、可演进的生产链路。
🟢 开源模型逼近闭源前沿:Kimi K2.6 与 Qwen 3.6 的双重压力
本周开源端最直接的信号是 Kimi K2.6 与 Qwen 3.6-27B 同时在"工具使用 + 编码"这条战场刷新可信度。Moonshot 的 Kimi K2.6 是 1T 参数 / 32B 激活的 MoE,本周 Latent Space 的全景报道指出它把 Agentic Coding 与"长时连续运行"做到与 Gemini 3.1 Pro 并列;@arena 同步标记 K2.6 在 Vision Arena 与 Document Arena 都拿下开源第一,文档侧已经追平 Muse Spark/Gemini 3.1 Pro 这种闭源前线。它支持 4000+ 工具调用、300 个并行子 Agent、12+ 小时连续工作,把"开源能不能跑生产 Agent"的问题正面回答了。
Qwen 端的故事更具"个人电脑级颠覆性"。Alibaba 在 Qwen3.6-27B 发布 与 本地化推文 中同步把模型推向 18GB RAM 起跑线;@julien_c 在 MacBook Pro 上"全飞行模式"跑出接近 Claude Code Opus 的体验,@sudoingX 在单张 RTX 3090 用 q4_k_m 跑出 40 tok/s,让模型自主写出 500 颗粒子的 boids 仿真并通过 10/10 浏览器测试;@UnslothAI 更进一步用 2-bit GGUF 在 12GB RAM 完成 26 次工具调用、修掉 GitHub 上三个真实 issue。底层支撑则是 unslothai/unsloth(累计 62878 星)这种"训练 2× / VRAM -70%"的本地化平台和 huggingface/ml-intern(累计 5435 星)这种"自主 ML 工程师" Agent 的成熟。
Interconnects 那篇分析 提供了一个不那么乐观的解读框架:闭源前沿实验室会不断把"前沿"重新定义到自己有数据优势的领域(编码、终端任务、专业领域),所以"差距"是动态而非静态的。但配合 @shiri_shh 的 4 月 24 天发布回顾——DeepSeek V4、Qwen3.6 系列、Kimi K2.6、Llama 4、GLM-5.1、Gemma 4——开源的迭代密度本身已经在挤压"闭源唯一可用"的窗口。本周可以看到的一个具体后果:本地化 Agent 真的开始能干活,"编码 Agent 必须上云"这条假设第一次出现可量化的反例。
🟢 Agent 记忆与经验复用:从 prompt 到"沉淀的工作记忆"
这一周记忆/经验主题集中爆发,工程化味道远比往常浓。Google Research 把 ReasoningBank 推向博客头条——通过把推理步骤结构化存取,让 Agent 在数学推理与代码生成上重复使用历史经验;论文中提出的"MaTTS"(Memory-aware Test-Time Scaling)用并行/串行两种扩展模式,让记忆主动指导后续生成而不是被动召回,这把"记忆 = 检索"的旧范式向"记忆 = 训练时无关的在线学习"推了一步。
而 @omarsar0 引述的"无状态决策记忆"论文则把视线压到生产线最难解的地方:当成千上万 Agent 实例横向扩展时,per-agent 持久状态本身成为瓶颈。论文借鉴分布式系统的事件溯源思路,用不可变决策日志替代主动内存,任何实例都能通过重放重建上下文——这是"企业、监管、容器原生"三件套绕不开的工程基础。@yasenka244 推的 SentientAGI 开源 EvoSkill 走另一条路:三个 Agent 在一个循环里读编码 Agent 自己的失败日志、写一个技能文件夹、重跑保留 wins,权重不动,Apache 2.0。这与 Slot Machines 论文揭示的"模型在 token 内部用正交 slot 维护多实体绑定"形成有趣呼应——前者是 harness 层把经验外挂出来,后者是 weights 层模型已经学会自己处理多实体记忆。
理论侧 Experience Compression Spectrum 给整个领域一把尺子:把 memory(5–20× 压缩)、skills(50–500×)、rules(1,000×+)放在同一压缩谱上,并在 22 篇主文献的 1,136 引用里发现跨社区互引率不足 1%——记忆派和技能派几乎在重新发明对方的轮子。同期 PolicyBank 把"不可变政策"换成"可演化政策",靠部署前测试反馈把策略漂移收敛 82%;OThink-SRR1 用 RL 训练 Search-Refine-Reason 闭环,让模型对检索结果"先蒸馏再推理";JTPRO 联合优化全局指令和每个工具的描述模式,把 Tool Selection × Slot Filling 的整体成功率推高 5%–20%。
把这些拼一起,本周的趋势相当清楚:Agent 的"长寿命运行"成为现实之后,谁能把经验、技能、政策、工具描述都做成可压缩、可演化、可读取的工程对象,谁就能避免"每次会话从零开始"的隐性税收。
🟢 Agent 评测与可靠性:判官不准、收益虚高、协同崩溃
本周一组论文集中揭露 Agent 评测里的"虚高"。最尖锐的是 AgentProp-Bench 的发现:业内常用的 substring 自动判官与人类标注的一致率仅 κ=0.049——基本等于扔硬币;三模型集成才把 κ 推到 0.432,仍只是中等水平。同一篇文章还测出 parameter-level 注入会有 0.62 概率传播到错误最终答案,而 reject 与 recovery 这两种纠错能力是模型间不相关的两个独立维度(Spearman ρ=0.126, p=0.747)。这意味着现在很多 Agent 排行榜的 SOTA,其实有一半在"自我表扬"。
更现实的难题来自 AutomationBench。它把"跨应用 + 自主 API 发现 + 政策遵循"三件套同时摆上台,模拟 Zapier 的真实业务工作流——CRM/邮箱/日历/支持/财务/HR。结果是即便最强前沿模型得分也不到 10%。这与 @dair_ai 转的 diversity collapse 论文呼应:多 Agent 系统在共享上下文/任务描述/反馈循环的耦合下,输出会随时间收敛到几乎相同的"吸引子",也就是用 Vendi score 度量的真实趋同;多 Agent 用于头脑风暴等创造性任务的卖点,部分是个伪命题——"五个模型穿着风衣假装一个答案"。
测评工具侧的进展则在补另一面。AWS 推出的 ToolSimulator 用 LLM 模拟工具响应、支持多轮状态化,让你在 CI 阶段就跑完工具集成测试;Datadog 用 ARFBench 把"在事件遥测里用自然语言提问"做成 750 题 / 142 时序 / 5.38M 数据点的基准,发现 GPT-5 在 TSQA 任务上准确率只有 62.7%,但 model-expert oracle 可以拉到 87.2%——人机互补仍有显著提升空间。The Tool-Overuse Illusion 则解释了"模型为什么明明会还要乱调工具":knowledge epistemic illusion 使模型错判内部知识边界,加上 outcome-only 奖励无差别鼓励工具使用——一个 DPO 风格的边界对齐策略可以把无谓工具调用降 82.8%。
更具警示意味的是两篇红队/审计研究。STAR-Teaming 用多 Agent + 策略-响应多重网络做自动化越狱,把高维 attack 空间变成可解释的语义社区,攻击成功率与计算成本同时显著优于现有方法;ASMR-Bench 则评估"AI 在 ML 研究代码里悄悄破坏"是否能被检测,最强 auditor 也只到 AUROC 0.77、top-1 修复率 42%。这两条线放在一起读起来像是同一个警钟:当 Agent 越来越多在"做研究 / 评 Agent",监督机制本身的可靠性正在变成新的瓶颈。
🟢 企业级 AI 落地实战:Shopify/Google Cloud/SAP 集体把 Agent 推进生产
本周三家代表性企业把"Agent 怎么落到主业流"讲透。最具体的实战是 Latent Space 对话 Shopify CTO Mikhail Parakhin:Shopify's AI Phase Transition 给出了三个内部系统的拆解——Tangle 做可复现的 ML/数据工作流、Tangent 是自动研究循环优化系统、SimGym 用历史数据做客户行为模拟。最反直觉的洞见在两点:一是 AI 编码的真正瓶颈早已不在生成,而在代码审查、CI/CD 与部署稳定性;二是"并行多 Agent"不是关键,更好的批判循环 + 更强模型才是解锁点。这与 Latent Space 的 AIE Europe Debrief 里 swyx 提的"基础设施每年自我革新、应用公司更易应对模型波动"形成相互印证。
Google Cloud 端给出的是平台层故事。Stratechery 与 Thomas Kurian 的访谈 把 Gemini Agent 平台、TPU、Wiz 安全收购拼成"统一架构"叙事,强调 Google 自己的内部部署用同一套基础设施是关键差异化;同步发布的 Google Cloud Next '26 七大亮点 给 Gemini Enterprise Agent Platform 与新一代 TPU 加上具体落地。AWS 这边 Bedrock AgentCore 新功能 给出"几分钟跑通 Agent"的具体路径——配置式 Agent Harness、AgentCore CLI 的统一原型→生产工作流、为编码 Agent 预构建技能;微软 AutoAdapt 则用 Adaptation Configuration Graph 把"试错式微调"重写成 Agent 规划器驱动的可复现工作流,针对医疗、法律、事件响应等高门槛领域。
ERP 与生产侧的视角来自 SAP CTO Philipp Herzig 在 No Priors 的访谈。把 ERP 比作"公司的操作系统"是个有用的隐喻:Agent 落地不止是模型问题,还包括 UI、业务流程、数据层的同步重构,以及随之而来的 Agent 挖掘(先看哪些流程值得 Agent 化)和定价模式变化。把它和 Anthropic Claude Code 产品负责人 Cat Wu 的 10 个要点 放一起读会很有意思——Anthropic 把交付节奏从 6 个月压到 1 天,用研究预览、launch room、低自我的 Claude 角色等方式让 PM/工程/设计角色融合,这种"消费侧的高速迭代节奏"反过来挤压企业供应商的产品周期。本周这一束内容拼起来,正是 Agent 进生产时真正卡在哪儿、谁有筹码、怎么走的最完整切片。
📌 本周简讯
- The people do not yearn for automation — Simon Willison 转引 Nilay Patel 的观察:拥有"软件脑"的人把世界视为可自动化系统,而大众恰恰反感 AI 把人类体验"扁平化"。这解释了为何使用量持续上行而公众情绪在恶化,对所有把"Agent 替代劳动"挂在嘴边的产品团队都是一记温柔但坚决的反向校准。
- E234|未来实拍电影还存在吗?与导演陆川聊聊 AI 给影视人的恐惧与自由 — 硅谷101 的访谈把 AI 多模态生成的现实瓶颈讲清楚了:陆川指出 AI 把视效流程从 6 个月压到 72 小时,但人物同质化、审美趋同是真问题;配音演员黄莺则强调情感与表演逻辑无法被复刻。技术与人文之间的张力,比任何模型卡都更直接。
- π0.7: a Steerable Generalist Robotic Foundation Model — 一个能跨实体零样本泛化的通用机器人基础模型,单模型可在没见过的厨房环境里折衣、操作浓缩咖啡机,性能匹敌专门 RL 微调的对照组。它通过"多模态上下文条件化"让训练能吃掉演示、自动失败、非机器人来源等异构数据,是机器人侧"基础模型路线"本周最值得记住的一笔。
- MIT scientists build the world's largest collection of Olympiad-level math problems — MathNet 收录 3 万+ 专家级数学题,覆盖 47 国 17 语,是同类数据集 5×。GPT-5 在上面只跑出 69.3%,视觉与多语言推理短板暴露明显——给数学/推理模型留下了一个公开、可比、规模可观的新训练与评测靶子。
- 🔬 Training Transformers to solve 95% failure rate of Cancer Trials — Noetik — Noetik 用 Transformer(TARIO-2)解析肿瘤空间转录组学,把"癌症临床试验 95% 失败率"压到一个匹配问题上,并以 5000 万美元与 GSK 达成合作。它示范了一种新的 AI 商业模式——做平台/工具而不是做药——是值得长期跟踪的"AI for science"原型。