AI周报 2026-W17
2026-4-25
| 2026-4-26
字数 8994阅读时长 23 分钟
type
Post
status
Published
date
Apr 25, 2026 13:20
slug
ai-weekly-2026-W17
summary
本周 AI 圈密度极高的三件事,恰好可以拼成一句完整的判断——"模型在卷,Agent 在长出工程层"。OpenAI 把 GPT-5.5 与重构后的 Codex 一并放出,把 Agent 的能力面从写代码扩到操作整台计算机;DeepSeek 蛰伏 484 天后用 V4 Pro/Flash 把"百万上下文 + 真实工作 Agent"的成本拉低一整档;与此同时 OpenAI、Vercel、Hugging Face 同步端出官方 Skills 仓库,Microsoft Agent Framework 1.0 正式发布、Sakana Fugu 进入商业 Beta、Google Cloud Next 的 marathon planning 多 Agent 系统直接开源——围绕 Skills 与 Multi-Agent 编排的生态层集中跨过生产化门槛。 这之外还有三条暗线值得跟踪:Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线,请看"客户端 + 模型 + 编排"被一次性扣紧的拐点;如果只读一篇评测,AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049,对所有做 Agent 的团队都是一次反向校准。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority

📊 本周概览

本周 AI 圈密度极高的三件事,恰好可以拼成一句完整的判断——"模型在卷,Agent 在长出工程层"。OpenAI 把 GPT-5.5 与重构后的 Codex 一并放出,把 Agent 的能力面从写代码扩到操作整台计算机;DeepSeek 蛰伏 484 天后用 V4 Pro/Flash 把"百万上下文 + 真实工作 Agent"的成本拉低一整档;与此同时 OpenAI、Vercel、Hugging Face 同步端出官方 Skills 仓库,Microsoft Agent Framework 1.0 正式发布、Sakana Fugu 进入商业 Beta、Google Cloud Next 的 marathon planning 多 Agent 系统直接开源——围绕 Skills 与 Multi-Agent 编排的生态层集中跨过生产化门槛。
这之外还有三条暗线值得跟踪:Agent 记忆与经验复用从 prompt 走向"沉淀的工作记忆"、Agent 评测被 AgentProp-Bench 与 AutomationBench 集体证伪了过去的乐观、企业侧 Shopify/Google Cloud/SAP/AWS 同步交付"Agent 进生产真正卡在哪"的实战切片。如果只看一条线,请看"客户端 + 模型 + 编排"被一次性扣紧的拐点;如果只读一篇评测,AgentProp-Bench 把自动判官与人类一致率测到 κ=0.049,对所有做 Agent 的团队都是一次反向校准。

🔵 GPT-5.5 与 Codex Superapp:从聊天到"计算机劳动"的拐点

本周 OpenAI 同时放出了 GPT-5.5(含 Pro)与重构后的 Codex 桌面端,并把模型同步推上 GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 全线。这不是一次寻常的版本升级——它把"模型 + 客户端 + 技能"打成一个组合包,把 Agent 的能力面从"写代码"扩到"操作整台计算机",也直接撞上 Anthropic Opus 4.7 这场刚刚布好的防线。
从基准看,GPT-5.5 这一代显然是按"代理工作"而非"对话回答"被训练出来的。swyx 给出的成绩单一口气列了 82.7% Terminal-Bench 2.0、58.6% SWE-Bench Pro、84.9% GDPval、98.0% Tau2-bench Telecom、80.5% BixBench,并强调它在 Codex 内做到 400K 上下文、API 端 1M,新定价 $5/M 输入、$30/M 输出 token,"Codex 把自己的推理速度又提了 20%"——这是首个与 GB200/GB300 NVL72 协同设计的代际。ARC Prize 单独发了一组数:ARC-AGI-2 在 xHigh 设置下达到 85.0%、单题成本 \$1.87,Greg Kamradt 进一步指出这一成绩"以 Gemini Deep Think 几分之一的成本"刷成 SOTA,而低推理档位已经几乎没有意义,中等推理才是新默认值。Latent Space 的 GPT-5.5 and OpenAI Codex Superapp 把这一点说得更直白:中等档位的 GPT-5.5 已经能与 Claude Opus 4.7 最高档位打平,成本只有四分之一——性价比帕累托被整体推到了新位置,而 reach_vb 观察到的"输出 token 数显著降低" 说明这种成本优势主要来自模型层面的 token 效率——也就是单位任务的 token 消耗下降,而不是单纯的 API 价格让利。
如果 GPT-5.5 是"更强的引擎",Codex 这一版才是 OpenAI 真正想押注的方向。Codex 团队成员 thsottiaux 一口气列出新功能:完整的浏览器使用、全局听写、non-dev 模式、比 yolo 更安全的自动审查(auto-review)模式、应用内文档与 PDF 查看,再加上 GPT-5.5 本身。James Sun 把 Browser Use 的意义讲得最清楚:现在你可以让 Codex 构建前端,再像真实用户一样点击测试,看 DOM 也看 console 与 network 日志,自己抓 bug 自己改——build & verify 闭环第一次在本地真正合上。Greg Brockman 顺势宣布 Codex + 5.5 已经不只是给程序员的工具,电子表格、幻灯片以及任何"在电脑前完成的工作"都进入它的射程;OpenAI 官方教程 Top 10 uses for Codex at workWhat is Codex? 配合 How to get started with Codex 把这种"超越聊天"的定位写成可上手的操作手册,加上 Speeding up agentic workflows with WebSockets in the Responses API 给出 connection-scoped 缓存与 WebSocket 持久连接的工程范式,整套基础设施已经按"长跑型 Agent 客户端"被重新打磨过。Ethan Mollick 在 Sign of the future: GPT-5.5 中用 3D 城镇模拟与图像生成做了感性试驾,并把视角拉到"模型 + 应用 + 工具的整合本身才是产品"——而 Simon Willison 的 pelican 测试 与对 ChatGPT Images 2.0 的浣熊评测 则从开发者侧验证了模型在生成质量与 SVG 复杂度上的肉眼可见跃迁。值得对照阅读的是 GPT-5.5 System Card 与官方 Introducing GPT-5.5:OpenAI 的措辞已从"最聪明的模型"切换到"为复杂目标、工具使用、自我检查与持续推进任务而生",连 Sam Altman 自己也只用一句轻描淡写的 更多 Codex 新功能即将到来,和新模型打成一个有趣的小捆绑,把焦点引向产品组合而非模型单点;官方账号GPT-5.5/Pro API 同步开放的公告 进一步把"完成计算机劳动的新方式"写成本周的主叙事。
这一切落地的时机对 Anthropic 来说异常难堪。过去一个月社区不断抱怨 Claude Code "变笨",ClaudeDevs 这周才发出官方 post-mortem,确认问题在于 v2.1.116 之前 harness 层的三个 bug,其中最关键的一个是 stale session 中"清理旧思考"被错误地每个 turn 都触发一次而不是仅一次——Simon Willison 在 recent Claude Code quality reports 中点破,"我大量使用 stale session,因此深受其害"。雪上加霜的是定价:他另一篇 Claude Code \$100/月之谜 用截图、Internet Archive 证据和 Anthropic 员工自相矛盾的推文,记录了 Claude Code 从 $20 Pro 计划被悄悄推向 $100 Max 计划的混乱过程,并直言这种沟通失败"给 OpenAI Codex 留下了可乘之机"。这两条线交汇成 hooeem 描述的那张更大的战略地图:Anthropic 把 Opus 4.7 定位成"严肃工程师而非聊天机器人"的同时被自己的 harness 拖累、又被定价摇摆耗掉信任,OpenAI 选在伤口上发射 GPT-5.5——"这已经不是聊天机器人之争,是数字劳动力归属之争"。AlexFinn 在他那条带有夸张修辞的推文里把这种紧迫感推到极致:ChatGPT 5.5 在几乎所有基准上压过 Opus 4.7,请立刻下载 Codex 桌面端,把每天电脑前要做的事都拿去问它;Cryptic_Web3 提醒 GPT-5.5 与 Pro 都已对付费用户开放;连 Simon Willison 自己也承认 在 Codex 里预览这一版几周下来,让它对其他模型写的代码做安全审查,效果非常好milesdeutschersnsf 等账号则在传播侧把"为 Agent 而生"的标签反复钉牢。
把这几条线拼回去,本周真正的拐点不在哪条基准刷了多少分,而在"客户端 + 模型 + 全栈分发"被一次性扣紧。GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 在 Satya Nadella 的同日宣布中同时换装 GPT-5.5,意味着同一颗 Agent 引擎从消费端的 Codex 桌面,到企业端的 Microsoft 工具栈,再到开发者侧的 API/Foundry,是同一份能力被不同壳承载——OpenAI 不是在卖更聪明的聊天,而是在铺"使用计算机"的劳动协议。Anthropic 这一边并非没有底牌:Opus 4.7 的长任务、工具使用、指令遵循依然是当下最严肃的工程对手,post-mortem 的诚意和 v2.1.116 的修复也确实把质量拉了回来。但当对手已经把"浏览器使用、自动审查、PDF、听写、非开发者模式"打包成一个桌面端,并以中档推理 + 1/4 成本对位你的最高档时,"Agent 客户端"这个产品形态本身就已经成为新的竞争单位。
如果说 GPT-5.4 mini/nano 那一代把 400K 上下文做成主流是把"长记忆"普及化,那么本周 GPT-5.5 + Codex 是把"长劳动"普及化。下半年值得盯紧的并不是谁的下一代模型分数更高,而是谁能让 Agent 在真实计算机环境里少出错地连续工作数小时,并以企业可接受的方式把账单、审计与回滚一并解决——这条赛道,本周已经被正式点亮。

🔵 DeepSeek V4 把 1M 上下文做成"白菜价"

距 V3 发布整整 484 天,DeepSeek 在本周一次性放出 V4 Pro(1.6T 总参 / 49B 激活)和 V4 Flash(284B / 13B),两个版本同时支持 1M token 上下文,权重 MIT 开源、API 当日上线(以 DeepSeek 官方公告口径为准——个别第三方转引数字略有差异)。这不是又一次"小步快跑"——梁文锋团队自己用"labor of love"形容这次升级(@victor207755822),而从架构到定价再到生态接入的连锁反应来看,V4 真正想做的,是把"百万上下文"从一个昂贵的炫技指标,硬生生压成日常调用的基线能力。
技术报告里最具杀伤力的数字来自一套新的混合稀疏注意力。按 Rohan Paul 整理的论文要点,V4 在 1M 上下文下的单 token 计算量只有 V3.2 的约 27%,KV 缓存只有 10%;分层的设计让一部分层"压缩过去再看最相关的压缩块",另一部分层"更激进地压缩并直接读摘要",再叠加新的残差路径与 Muon 优化器以保证大规模训练的数值稳定(@rohanpaul_ai)。vLLM 团队在 Day-0 博客里把这套机制拆得更细:Shared K/V + 反向 RoPE 拿到 2× 内存收益,c4a/c128a KV 压缩再叠 4×–128×,外加 DeepSeek Sparse Attention 与短滑窗补本地性,结果是 1M 上下文下每层 KV 状态比 V3.2 风格的 61 层堆叠小约 8.7×(9.62 GiB vs 83.9 GiB,bf16),fp8 attention cache 加 fp4 indexer cache 还能再降一档(@vllm_project)。把这条线放回历史脉络看,V3.2 时代结合 MLA 与 Sliding-Window 的稀疏注意力、IndexCache 把 MRCR v2 在 1M tokens 推到 78.3% 的工作,更像是"先证明可行";V4 则是把可行的东西工程化到能批量服务的程度——成本/上下文比的代际跃迁就是这么发生的。
代际跃迁直接体现在价格表上。Flash 的 $0.14 / $0.28 每百万输入/输出 token,Pro 的 $1.74 / $3.48,外加 Pro $0.145、Flash $0.028 的缓存命中价(@ArtificialAnlys),等于把"百万级上下文 + 工具调用"这一类原本被前沿闭源把持的工作负载,定价拉低了一整档。Simon Willison 在试用文章里直接把这点写在标题里——"almost on the frontier, a fraction of the price",并配了 SVG 鹈鹕生成测试做能力旁证(Simon Willison);Emad Mostaque 顺手把账算了出来:Pro 最终训练运行不到 14M 美金,Flash 不到 4M,加上数据准备、调参、测试的全流程成本约是最终训练运行的 10×(按 V3 推算),"the cost of taste: priceless"(@EMostaque)。换句话说,DeepSeek 用差不多 V3 量级的训练投入,换到了"Agent 真实工作"上的领先位置。
所谓"Agent 真实工作"不是修辞。Artificial Analysis 把 V4 Pro(Reasoning, Max)打到 GDPval-AA 1554 分——这是他们用真实生产力任务构造的 agentic 基准,V4 Pro 是其中得分最高的开源权重模型,领先 GLM-5.1(1535)、MiniMax-M2.7(1514)、Kimi K2.6(1484);更关键的是 V3.2(Reasoning)在同一基准上只有 1203,V4 Pro 一次性吃下约 355 个 Elo 点的提升,连 V4 Flash(Reasoning, High, 1414)都比 V3.2 高出约 210 点,且只用了 7M 输出 token(@ArtificialAnlys)。1.6T 总参也使其超越 Kimi K2.6(1T / 32B)成为目前规模最大的开源权重模型,并以 FP4 为主的精度把权重控制在 ~865GB,明显比 BF16 的 GLM-5.1(~1.49TB)更友好。叠加 1M 上下文、混合 thinking/non-thinking,V4 Pro 在"长流程不重置"的 agent 场景里确实做出了开源端最像样的答卷——Lightning AI 的 Day-0 接入文案"built for agents that don't reset every few steps"几乎就是冲着这件事写的(@LightningAI)。
生态接入的速度本身就是一个独立信号。模型上线当天,vLLM 给出 Day-0 支持并附完整 attention 实现走读,OpenRouter 同步上线(Simon Willison 直接用它做了对比图,@simonw),Lightning AI 把推理跑通,Qoder IDE 当天动手测试(@qoder_ai_ide);与此同时,DeepSeek 官方 MoE 通信库 DeepEP 在腾讯网络平台部贡献下性能再提升 30%,把"高吞吐 + 低延迟 all-to-all + FP8 + 不占 SM 的 hook 式通信计算重叠"这套底座也补到了一档新水位。模型、推理框架、通信库、API、第三方托管在同一个时间窗对齐,意味着"开放权重 + 1M 上下文 + 真实 agent 工作能力"这件事已经具备生产化的全栈条件。
把这几条线合起来看,V4 的真正意义不是又一次刷分,而是把"长上下文能用"从研究展示推到了商业拐点:算法上用层级压缩 + 稀疏注意力压住了二次成本曲线,工程上靠 FP4/FP8、统一 KV cache 抽象、融合 kernel 把推理成本压低,商业上用 Flash 几美分级的定价直接卷开市场,生态上当天打通主流推理栈。在闭源前沿仍然引领高端能力的同时,开源端这次把"高上下文 + Agent 工作"的性价比基线推到了一个新高度——下一阶段值得观察的,不再是会不会有人跟进 V4 的 1M 上下文,而是这一档定价会不会逼着上游把同等能力打包进默认 API。

🔵 Agent Skills 与 Multi-Agent 编排,正在凝固为新一层基础设施

如果说前几个月 Anthropic 提出 Agent Skills 标准(围绕 SKILL.md 这份元数据约定)时,行业还在观望"这究竟是又一个临时约定,还是会沉淀为协议",那么本周的信号已经非常明确——围绕 Skills 与 Multi-Agent 编排的生态层,正在从松散的开源探索"凝固"为新一层基础设施。这一周的特殊之处在于:标准化、生产化和工程化三条线在同一时间窗口内同时跑过临界点。
第一条线是 Skills 作为"能力包"的标准化。本周几乎是同步发布——OpenAI 上线了官方 openai/skills 仓库(累计 17435 星),把"一次编写、随处使用"的指令/脚本/资源包模型直接接入 Codex;Vercel Labs 推出 vercel-labs/skills(累计 15561 星)作为跨 41+ 主流编码 Agent 的统一安装管理 CLI;Hugging Face 端出 huggingface/skills(累计 10262 星),把模型训练、数据集处理这类 ML 操作打包为符合 Agent Skills 格式的标准技能。三家在同一周内不约而同采用了 Anthropic 提出的 SKILL.md 范式,意味着 Skills 已经事实上成为厂商间的最大公约数。社区层面,VoltAgent/awesome-agent-skills 收录的人工筛选技能已突破 1100+ 条(累计 18194 星),覆盖 Anthropic、Google、Stripe、Cloudflare 等官方源;OthmanAdi/planning-with-files(累计 19279 星)则把 Manus 风格的"用 Markdown 持久化规划"提炼成了一份可直接安装的 Skill。OpenAI 同时发布的 Plugins and skillsWorkspace agents 教程——配合产品侧的 Introducing workspace agents in ChatGPT——更是把"插件接外部工具、Skill 封装可复用工作流"作为官方推荐的 Agent 构建路径写入了文档。一个值得玩味的细节是,andrej-karpathy-skills 这种"把 Karpathy 关于 LLM 错误的洞见压成一份 CLAUDE.md"的轻量项目也在本周走红——技能的最小颗粒度被压到了"一份配置文件",标准化的边际成本已经接近零。
第二条线是 Multi-Agent 编排进入生产。微软发布 Microsoft Agent Framework 1.0,给出稳定 API、多 Agent 编排、长时间工作流以及 C# + Python 双栈支持,VS Code Foundry Toolkit 内嵌"Create Agent"、内置 skills 与 Agent Inspector——这是 Semantic Kernel 与 AutoGen 两条历史路线在企业侧的合并版。与此同时,Sakana AI Fugu 以一个 OpenAI 兼容 API 的形式发布商业 Beta,在 SWE-Pro、GPQA-D、ALE-Bench 上拿到 SOTA,Sakana 联合创始人 hardmaru 直言"AI 的未来是集合智能"——其卖点正是动态编排开源与闭源模型的最佳组合。Google Cloud Next 上展示的 marathon planning 多 Agent 系统(含记忆和 MCP)则被 @rseroter 团队全部开源,可本地或云端运行;Shubham Saboo 关于 ADK 2.0 的总结 把"从 Skills 到系统"的 5 种编排模式做了体系化梳理。Cursor 3 上线的 /multitask 在用户侧把异步子 Agent 并行化做成了产品默认行为,Mastra 让 Agent 能像人一样浏览网页,则把 Web 操作纳入了编排器可调度的能力。GitHub 端,字节跳动的 bytedance/deer-flow(累计 62780 星)2.0 版本完全重写并支持 Docker 一键部署,crewAIInc/crewAI(累计 49732 星)推出 Flows 生产架构与云控制平面,kyegomez/swarms 强调企业级高可用——三者共同把"多 Agent 框架"从概念项目推到了可观测、可治理的生产形态。microsoft/ai-agents-for-beginners(累计 58881 星)在同一时间把 AutoGen / Semantic Kernel 的入门路径打通,进一步降低了门槛。
第三条线是 工程化基础设施——也就是当 Skills 越来越多、Agent 越来越多,"怎么让它们跑得起来、跑得稳"的那一层。MCP 已经事实标准化,PrefectHQ/fastmcp(累计 24742 星)作为官方 MCP Python SDK 核心,公开数据已占 MCP 服务器 70% 份额;mksglu/context-mode(累计 9499 星)通过沙箱化工具输出,把 MCP 调用的上下文消耗最高压缩 98%——本周登顶 Hacker News 并被多家大公司采用;zilliztech/claude-context 用语义检索把整个代码库压成可按需调取的 Agent 上下文;前述 planning-with-files 则把"长任务规划"问题外化到文件系统。这些工具的共同主题,是承认上下文窗口与编排状态才是 Agent 真正的瓶颈——而这恰好印证了 Anthropic Building Effective Agents 作者 Erik 的 19 分钟访谈 中那句"瓶颈从来不是架构,而是 context"。配套来看,davila7/claude-code-templates(累计 24954 星)已经把 100+ 预配置 Agent、命令、钩子和 MCP 集成做成了即装即用的模板生态,cline/cline(累计 60847 星)则在 IDE 端把"人机协作 + MCP 扩展"沉淀为标杆。
学术侧也罕见地与工程节奏对齐。本周 GraSP: Graph-Structured Skill Compositions for LLM Agents 直接给出实证:"瓶颈已经从 skill availability 转移到 skill orchestration"——技能多到一定程度反而损害性能,2-3 个聚焦技能的表现常常优于完整技能文档。GraSP 把扁平技能集编译成带前置/后效边的有类型 DAG,把 replanning 复杂度从 O(N) 降到 O(d^h),在 ALFWorld、ScienceWorld、WebShop、InterCode 上全面优于 ReAct/Reflexion/ExpeL,奖励与环境步数指标均有显著改进——这是从理论上证实"结构化编排比更大技能库更重要"。另一篇 Learning to Evolve (TPGO) 则把多 Agent 系统建模为可优化的文本参数图,用 Group Relative Agent Optimization 在 GAIA、MCP-Universe 等 benchmark 上让 Agent 框架"学会自己优化自己"。这两篇恰好回答了本周开源生态隐含的两个问题:怎么把 Skills 组合得更有结构怎么让 Multi-Agent 系统从经验里持续进化。再叠加 Aakash Gupta 推广的"Agentic AI 五层架构"(交互层、编排层、专用 Agent 层、数据层、模型 API 层)这种被广泛转发的方法论,"如何拼装"的共识正在快速收敛。
把这三条线放在一起,本周可以视为生态整合的"凝固时刻"——并不是某一项重磅技术发布,而是 Skills 标准、Multi-Agent 编排、上下文与 MCP 工程化在同一个窗口内被各家厂商、社区与论文共同认领。下一阶段,价值不再来自"再发明一个 Agent 框架",而是来自能否把 Skills、编排器、上下文压缩、记忆与评估串成一条可观测、可治理、可演进的生产链路。

🟢 开源模型逼近闭源前沿:Kimi K2.6 与 Qwen 3.6 的双重压力

本周开源端最直接的信号是 Kimi K2.6 与 Qwen 3.6-27B 同时在"工具使用 + 编码"这条战场刷新可信度。Moonshot 的 Kimi K2.6 是 1T 参数 / 32B 激活的 MoE,本周 Latent Space 的全景报道指出它把 Agentic Coding 与"长时连续运行"做到与 Gemini 3.1 Pro 并列;@arena 同步标记 K2.6 在 Vision Arena 与 Document Arena 都拿下开源第一,文档侧已经追平 Muse Spark/Gemini 3.1 Pro 这种闭源前线。它支持 4000+ 工具调用、300 个并行子 Agent、12+ 小时连续工作,把"开源能不能跑生产 Agent"的问题正面回答了。
Qwen 端的故事更具"个人电脑级颠覆性"。Alibaba 在 Qwen3.6-27B 发布本地化推文 中同步把模型推向 18GB RAM 起跑线;@julien_c 在 MacBook Pro 上"全飞行模式"跑出接近 Claude Code Opus 的体验,@sudoingX 在单张 RTX 3090 用 q4_k_m 跑出 40 tok/s,让模型自主写出 500 颗粒子的 boids 仿真并通过 10/10 浏览器测试;@UnslothAI 更进一步用 2-bit GGUF 在 12GB RAM 完成 26 次工具调用、修掉 GitHub 上三个真实 issue。底层支撑则是 unslothai/unsloth(累计 62878 星)这种"训练 2× / VRAM -70%"的本地化平台和 huggingface/ml-intern(累计 5435 星)这种"自主 ML 工程师" Agent 的成熟。
Interconnects 那篇分析 提供了一个不那么乐观的解读框架:闭源前沿实验室会不断把"前沿"重新定义到自己有数据优势的领域(编码、终端任务、专业领域),所以"差距"是动态而非静态的。但配合 @shiri_shh 的 4 月 24 天发布回顾——DeepSeek V4、Qwen3.6 系列、Kimi K2.6、Llama 4、GLM-5.1、Gemma 4——开源的迭代密度本身已经在挤压"闭源唯一可用"的窗口。本周可以看到的一个具体后果:本地化 Agent 真的开始能干活,"编码 Agent 必须上云"这条假设第一次出现可量化的反例。

🟢 Agent 记忆与经验复用:从 prompt 到"沉淀的工作记忆"

这一周记忆/经验主题集中爆发,工程化味道远比往常浓。Google Research 把 ReasoningBank 推向博客头条——通过把推理步骤结构化存取,让 Agent 在数学推理与代码生成上重复使用历史经验;论文中提出的"MaTTS"(Memory-aware Test-Time Scaling)用并行/串行两种扩展模式,让记忆主动指导后续生成而不是被动召回,这把"记忆 = 检索"的旧范式向"记忆 = 训练时无关的在线学习"推了一步。
@omarsar0 引述的"无状态决策记忆"论文则把视线压到生产线最难解的地方:当成千上万 Agent 实例横向扩展时,per-agent 持久状态本身成为瓶颈。论文借鉴分布式系统的事件溯源思路,用不可变决策日志替代主动内存,任何实例都能通过重放重建上下文——这是"企业、监管、容器原生"三件套绕不开的工程基础。@yasenka244 推的 SentientAGI 开源 EvoSkill 走另一条路:三个 Agent 在一个循环里读编码 Agent 自己的失败日志、写一个技能文件夹、重跑保留 wins,权重不动,Apache 2.0。这与 Slot Machines 论文揭示的"模型在 token 内部用正交 slot 维护多实体绑定"形成有趣呼应——前者是 harness 层把经验外挂出来,后者是 weights 层模型已经学会自己处理多实体记忆。
理论侧 Experience Compression Spectrum 给整个领域一把尺子:把 memory(5–20× 压缩)、skills(50–500×)、rules(1,000×+)放在同一压缩谱上,并在 22 篇主文献的 1,136 引用里发现跨社区互引率不足 1%——记忆派和技能派几乎在重新发明对方的轮子。同期 PolicyBank 把"不可变政策"换成"可演化政策",靠部署前测试反馈把策略漂移收敛 82%;OThink-SRR1 用 RL 训练 Search-Refine-Reason 闭环,让模型对检索结果"先蒸馏再推理";JTPRO 联合优化全局指令和每个工具的描述模式,把 Tool Selection × Slot Filling 的整体成功率推高 5%–20%。
把这些拼一起,本周的趋势相当清楚:Agent 的"长寿命运行"成为现实之后,谁能把经验、技能、政策、工具描述都做成可压缩、可演化、可读取的工程对象,谁就能避免"每次会话从零开始"的隐性税收。

🟢 Agent 评测与可靠性:判官不准、收益虚高、协同崩溃

本周一组论文集中揭露 Agent 评测里的"虚高"。最尖锐的是 AgentProp-Bench 的发现:业内常用的 substring 自动判官与人类标注的一致率仅 κ=0.049——基本等于扔硬币;三模型集成才把 κ 推到 0.432,仍只是中等水平。同一篇文章还测出 parameter-level 注入会有 0.62 概率传播到错误最终答案,而 reject 与 recovery 这两种纠错能力是模型间不相关的两个独立维度(Spearman ρ=0.126, p=0.747)。这意味着现在很多 Agent 排行榜的 SOTA,其实有一半在"自我表扬"。
更现实的难题来自 AutomationBench。它把"跨应用 + 自主 API 发现 + 政策遵循"三件套同时摆上台,模拟 Zapier 的真实业务工作流——CRM/邮箱/日历/支持/财务/HR。结果是即便最强前沿模型得分也不到 10%。这与 @dair_ai 转的 diversity collapse 论文呼应:多 Agent 系统在共享上下文/任务描述/反馈循环的耦合下,输出会随时间收敛到几乎相同的"吸引子",也就是用 Vendi score 度量的真实趋同;多 Agent 用于头脑风暴等创造性任务的卖点,部分是个伪命题——"五个模型穿着风衣假装一个答案"。
测评工具侧的进展则在补另一面。AWS 推出的 ToolSimulator 用 LLM 模拟工具响应、支持多轮状态化,让你在 CI 阶段就跑完工具集成测试;Datadog 用 ARFBench 把"在事件遥测里用自然语言提问"做成 750 题 / 142 时序 / 5.38M 数据点的基准,发现 GPT-5 在 TSQA 任务上准确率只有 62.7%,但 model-expert oracle 可以拉到 87.2%——人机互补仍有显著提升空间。The Tool-Overuse Illusion 则解释了"模型为什么明明会还要乱调工具":knowledge epistemic illusion 使模型错判内部知识边界,加上 outcome-only 奖励无差别鼓励工具使用——一个 DPO 风格的边界对齐策略可以把无谓工具调用降 82.8%。
更具警示意味的是两篇红队/审计研究。STAR-Teaming 用多 Agent + 策略-响应多重网络做自动化越狱,把高维 attack 空间变成可解释的语义社区,攻击成功率与计算成本同时显著优于现有方法;ASMR-Bench 则评估"AI 在 ML 研究代码里悄悄破坏"是否能被检测,最强 auditor 也只到 AUROC 0.77、top-1 修复率 42%。这两条线放在一起读起来像是同一个警钟:当 Agent 越来越多在"做研究 / 评 Agent",监督机制本身的可靠性正在变成新的瓶颈。

🟢 企业级 AI 落地实战:Shopify/Google Cloud/SAP 集体把 Agent 推进生产

本周三家代表性企业把"Agent 怎么落到主业流"讲透。最具体的实战是 Latent Space 对话 Shopify CTO Mikhail Parakhin:Shopify's AI Phase Transition 给出了三个内部系统的拆解——Tangle 做可复现的 ML/数据工作流、Tangent 是自动研究循环优化系统、SimGym 用历史数据做客户行为模拟。最反直觉的洞见在两点:一是 AI 编码的真正瓶颈早已不在生成,而在代码审查、CI/CD 与部署稳定性;二是"并行多 Agent"不是关键,更好的批判循环 + 更强模型才是解锁点。这与 Latent Space 的 AIE Europe Debrief 里 swyx 提的"基础设施每年自我革新、应用公司更易应对模型波动"形成相互印证。
Google Cloud 端给出的是平台层故事。Stratechery 与 Thomas Kurian 的访谈 把 Gemini Agent 平台、TPU、Wiz 安全收购拼成"统一架构"叙事,强调 Google 自己的内部部署用同一套基础设施是关键差异化;同步发布的 Google Cloud Next '26 七大亮点 给 Gemini Enterprise Agent Platform 与新一代 TPU 加上具体落地。AWS 这边 Bedrock AgentCore 新功能 给出"几分钟跑通 Agent"的具体路径——配置式 Agent Harness、AgentCore CLI 的统一原型→生产工作流、为编码 Agent 预构建技能;微软 AutoAdapt 则用 Adaptation Configuration Graph 把"试错式微调"重写成 Agent 规划器驱动的可复现工作流,针对医疗、法律、事件响应等高门槛领域。
ERP 与生产侧的视角来自 SAP CTO Philipp Herzig 在 No Priors 的访谈。把 ERP 比作"公司的操作系统"是个有用的隐喻:Agent 落地不止是模型问题,还包括 UI、业务流程、数据层的同步重构,以及随之而来的 Agent 挖掘(先看哪些流程值得 Agent 化)和定价模式变化。把它和 Anthropic Claude Code 产品负责人 Cat Wu 的 10 个要点 放一起读会很有意思——Anthropic 把交付节奏从 6 个月压到 1 天,用研究预览、launch room、低自我的 Claude 角色等方式让 PM/工程/设计角色融合,这种"消费侧的高速迭代节奏"反过来挤压企业供应商的产品周期。本周这一束内容拼起来,正是 Agent 进生产时真正卡在哪儿、谁有筹码、怎么走的最完整切片。

📌 本周简讯

  • The people do not yearn for automation — Simon Willison 转引 Nilay Patel 的观察:拥有"软件脑"的人把世界视为可自动化系统,而大众恰恰反感 AI 把人类体验"扁平化"。这解释了为何使用量持续上行而公众情绪在恶化,对所有把"Agent 替代劳动"挂在嘴边的产品团队都是一记温柔但坚决的反向校准。
  • π0.7: a Steerable Generalist Robotic Foundation Model — 一个能跨实体零样本泛化的通用机器人基础模型,单模型可在没见过的厨房环境里折衣、操作浓缩咖啡机,性能匹敌专门 RL 微调的对照组。它通过"多模态上下文条件化"让训练能吃掉演示、自动失败、非机器人来源等异构数据,是机器人侧"基础模型路线"本周最值得记住的一笔。
  • AI
  • 周报
  • 技术趋势
  • 从 DeepSeek V4 的多专家on-policy Distillation 反观人类学习推荐周报 2026-W17
    Loading...