AI周报 2026-W19
2026-5-9
| 2026-5-11
字数 8745阅读时长 22 分钟
type
Post
status
Published
date
May 9, 2026 09:17
slug
ai-weekly-2026-W19
summary
本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming(夜间自我改进)和桌面 Claude Code,配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览,把 Agent 从"一次性脚本"完整推进到"持续运营单元"。 紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验,从同一周的不同角度证明:harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字,"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。 第三条线是基础设施。推理 token 价格一年降 100x,但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率,OpenAI 联合五家硬件厂商发布 MRC 网络协议,Perplexity 自研 ROSE 引擎,NVIDIA 开源 TokenSpeed,再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority
1

📊 本周概览

本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming(夜间自我改进)和桌面 Claude Code,配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览,把 Agent 从"一次性脚本"完整推进到"持续运营单元"。
紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验,从同一周的不同角度证明:harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字,"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。
第三条线是基础设施。推理 token 价格一年降 100x,但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率,OpenAI 联合五家硬件厂商发布 MRC 网络协议,Perplexity 自研 ROSE 引擎,NVIDIA 开源 TokenSpeed,再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。

Agent Harness Engineering:上下文工程与 Token 经济正在替代"换更强模型"

本周 Agent 领域最密集的信号几乎全部指向同一个方向:让 coding agent 跑得更好不再靠加大模型,而是靠重写它周围的脚手架。从复旦/北大的论文、Microsoft 的小模型 subagent,到 GitHub 自家的 token 审计工作流、vLLM 的 KV cache 池,再到 Twitter 上一线工程师的 plumbing 心得,整个生态在一周内交出了一份系统化的"harness engineering"方法论。
最具学术分量的是复旦/北大/上海岐迹智锋提出的 Agentic Harness Engineering (AHE)。它的论点足够直白——coding agent 的瓶颈不在基础模型,而在 harness——并把这个论点变成了一套可执行的闭环:tools、middleware、memory、system prompt 全部以显式文件存在(component observability),rollouts 蒸馏成分层证据语料(experience observability),每次编辑都附带"应该修哪些 task、可能破坏哪些"的预测(decision observability)。10 轮迭代就把 Terminal-Bench 2 的 pass@1 从 69.7% 推到 77.0%,超过手工 harness 与 ACE/TF-GRPO 等自我进化基线,token 消耗反而比 seed 少 12%;更关键的是这套进化出的 harness 跨 DeepSeek/Qwen/Gemini 三个模型族都能拿到 +5.1 到 +10.1 pp 的增益,无需重新训练。一个反直觉细节值得圈出:单独换 system prompt 反而让性能回退 2.3 pp,而 tools、middleware、long-term memory 单独换都能提升——这说明 prompt 已经被过度调优,剩余 headroom 在更"基建"的层面。
如果说 AHE 给了方法论,Microsoft 的 Terminus-4B 给的就是工业证据:把 Qwen3-4B 通过 SFT + rubric-based RL 微调成专用 subagent,主 agent 的 token 用量直接砍掉 30%,而且在 SWE-Bench Pro 和内部 C# benchmark 上不掉点,甚至常常超过用 Claude Sonnet/Opus、GPT-5.3-Codex 当 subagent 的版本。这是一个值得停下来想的结论——"frontier model 当 subagent"这个默认假设第一次被一个 4B 小模型系统性证伪。Cursor 几乎同时上线的 /orchestrate 走的是同一思路的产品化版本:用 Cursor SDK 递归生成 agent,他们自己的 autoresearch skills 减少 20% token 同时提升 evals,后端冷启动降低 80%。委派、子代理、技能复用,从论文到生产线在一周内合上。
来自一线的 plumbing 视角则更具体也更扎心。Command Code 的 Ahmad Awais 用 4 个底层修改让 Kimi K2.6 在内部 eval 上追到 Opus 4.7 的 5/10、DeepSeek V4 Pro 到 6/10。其中"最大的单一改进"不是模型也不是 prompt,而是 sticky session header——开源模型没有 product-tier prompt cache,只能依赖 inference server 的 prefix cache,但负载均衡把同一对话连续轮次分发到不同 GPU pod,每个都得重 prefill 约 10K token 前缀,TTFT 6-8 秒;soft pin 同 session 到同 pod 后 TTFT 跌到 1 秒以下。他给出的判断很犀利:"开源模型编码差"很多时候是"开源模型在 cold cache 上跑",是 harness 而非模型问题。这个观察在系统层面被 vLLM × Mooncake 同周交出的数字坐实——agentic 轨迹长到 80K+ tokens、94% 可复用 prefix,但本地 KV cache 驱逐它们、cross-instance routing 错过它们;接入 Mooncake 分布式 KV pool 后 cache hit rate 从 1.7% 拉到 92.2%,吞吐 3.8x,P50 TTFT 降 46x,扩展到 60 张 GB200 仍 >95% 命中(这一组数字在本周报后文的"AI 推理基础设施"章节还会再出现一次,那是同一发布的另一面)。这是同一个问题在两个抽象层的回响:上层换 session header,底层换分布式 KV,目标都是别让长上下文白白重算。
工具侧的爆发同样指向"管住发出去的 token",但具体路径分两条:一条是把工具输出在落入对话之前先压扁,一条是把"工程经验"封装成可复用资产。前者中最具示范性的是 GitHub 自己的 Token Efficiency 实践——把 API 代理统一日志、再跑两个自动化工作流(Daily Token Usage Auditor 和 Optimizer),具体动作朴素得令人意外:移除未使用的 MCP 工具每轮省 8-12KB 上下文,用 GitHub CLI 替代 MCP 减少 LLM 调用轮次。开源侧 Context Mode 在 80 小时 Opus pair programming 中省下 $487、把 6.2 MB raw output 压到 124 KB context、98% 削减,靠的是 5 个生命周期 hook 在 tool output 落入对话前拦截、把代码送进数据而不是把数据拉进模型、26 个 event category 跨 compaction 携带 session 状态。Insforge Skills + CLI 给出的实测是 10.4M → 3.7M tokens、错误从 10 降到 0、成本 $9.21 → $2.81。code-review-graph 用 Tree-sitter 把代码库做成结构化知识图谱,审查任务减 6.8x token、日常编码最高 49x;9Router 加上路由层和工具输出压缩节 20-40% token;RunTrim CLI 把 memory/scope/control 层在 Claude/Codex/Cursor/Kimi 之间通用化。一份 10 工具盘点 把 microsoft/LLMLingua、mem0、litellm、llama_index、aider 等串起来时给出了那句近乎结论的判断——"大部分 agent 贵不是因为模型贵,而是没人检查发了什么"。
工程经验的资产化是另一道支线。forrestchang/andrej-karpathy-skills 把 Karpathy 的 4 条原则压成 CLAUDE.md,addyosmani/agent-skills 用累计 35.7k 星把资深工程师的需求/规划/构建/测试/部署流程编码为斜杠命令;reach_vb 演示的 /plugin marketplace add openai/codex-plugin-cc 直接把 Codex 的 review/adversarial-review/rescue 装进 Claude Code,则把"竞品 coding agent 互相组合"从设想变成一行命令。这条线的潜台词是:skills 不再被当作 prompt 模板,而是被当作可版本化、可审计、可跨 harness 复用的工程产物——和 AHE 把每个组件当成显式文件、Microsoft 把 subagent 训成单独的 4B 模型,是同一种工程化冲动。
回头看一年前的脉络,2024-2025 的研究重心几乎全压在"训更好的代码模型",零星出现的 harness/skills 项目多为单点工具或局部优化。本周的不同在于密度和层次——同一周内同时落地了论文化方法(AHE)、工业实践(GitHub token 审计、Microsoft Terminus-4B)、底层基建(vLLM × Mooncake KV pool)、跨厂商工具(RunTrim、9Router、Codex × Claude Code 互通)。当 token 节省 30%、98%、3.8x 这样的数字开始稳定出现在 harness 层而不是模型层,"换更强模型"作为默认动作正在被替换成"先看 harness 还有多少没榨干"。下一个值得盯的问题大概是:当 harness 进化变成自动化闭环(AHE 那种 10 轮就能涨 7 个点),harness 本身会不会成为新的护城河——比模型权重更难复制,因为它编码的是组织的工程经验。

Code with Claude 2026 大会:从 Claude Managed Agents 到 Dreaming,自我改进型 Agent 范式登场

本周 AI 行业最值得拆解的事件,是 5 月 6 日落幕的 Code with Claude 2026 大会。这是 Anthropic 的第二届年度开发者大会——一年前的首届主要发布了 Claude Code,今年则把 Claude Code 升级为一整套 Managed Agents 范式,并配合一笔可能改写算力市场结构的 $5B/年 SpaceX 算力交易和一份让 Mozilla 单月修复 423 个 Firefox 漏洞的安全模型预览。这三条线本不是同一件事,但摆在一起,恰好勾勒出 Anthropic 当前的产品哲学:把 Agent 从"一次性脚本"升级为有自我改进闭环的"持续运营单元",再用底层算力和可信度兜底。
正面看产品发布。Simon Willison 的 现场实时记录 给出了最完整的清单:Claude Managed Agents 新增多 Agent 编排、Outcomes(用户设定成功标准让 Claude 迭代直到达成)、桌面版 Claude Code,以及最具研究气质的 Dreaming——夜间自我改进,离线生成记忆。Anthropic 官方账号在 当天的发布推 中确认 Dreaming 以 research preview 形式上线,而 Outcomes、多 Agent 编排和 webhooks 进入公开 beta。这四个能力组合起来对应一条非常清晰的认知模型:一个 agent 不再只是被动响应单次任务,而是有"目标—执行—多协作者—夜间复盘"四个槽位。Outcomes 把"提示工程"变成了"目标工程",多 agent 编排把工具调用变成了组织协作,Dreaming 则补上了过去 LLM agent 最缺的一环——跨 session 的非交互式学习。值得注意的是,这套范式之前已经在第三方生态里被反复验证过,社区里"Teams-first multi-agent orchestration"和"单 session 拆成 49 个 agent 工作室"这类实验都说明社区已经走到了这一步。Anthropic 这次相当于把社区里事实上的 best practice 收编为官方一等公民,再以 claude-plugins-official(累计 18.9k 星)作为 marketplace 入口,anthropics/financial-services(累计 15.5k 星)作为完整垂直行业参考实现——后者尤其有意思,每个 agent 同时以 Claude Cowork(Anthropic 推出的协同工作产品线)插件和 Managed Agent API 两种形态交付,等于官方亲自示范了"如何把垂类 SaaS 工作流写成 Managed Agent"。
Dreaming 的范式意义需要单独点破。它不是一个炫技的 demo,而是 LLM agent 第一次从"无状态服务"走向"有夜班的运营单元"。业内已经有解读把 Dreaming 描述为 agent 异步回顾历史会话、清理重复记忆、提炼新洞察、跨 session 学习,与 Anthropic 在大会上的官方表述一致。组合 Outcomes 看更清楚:白天 Outcomes 让 agent 反复迭代直到拿到结果,夜里 Dreaming 把这些结果和失败路径压缩成新的记忆,第二天的 agent 就比昨天的强一点。这是一个标准的内外循环优化结构,Latent Space 的 AINews 在总结时正是用"自动改进 Agent、内外循环优化"来概括 Claude Code 的新能力。Dario Amodei 在大会上预测 2026 年会出现"一人独角兽",RoundtableSpace 的推文 把它包装成"零员工公司剧本",话术虽然营销,但底层逻辑是成立的——只有当 agent 具备夜间自我改进和多 agent 编排,"一个人配一支 AI 员工队伍"才不再是脚本拼贴,而是真正可运营的组织。
第二条线是算力。同一天,xAI 官方账号宣布 SpaceXAI 将向 Anthropic 提供 Colossus 1 算力。Latent Space 给出的细节是 $5B/年、300MW,xAI 自己则转型为 neocloud;Anthropic 的 ARR 据其披露在 8000% 年化增长,API 流量同比 17 倍。这笔交易在历史脉络里相当反常——Anthropic 与 xAI 长期被视为安全路线和加速路线的对立面,本周却互为客户与供应商。这说明前沿算力已经稀缺到可以让意识形态对手坐到同一张合同上,也说明一个"中性算力市场"正在浮现:模型厂商之间不必是零和博弈,因为算力本身已经成为可以独立结算的商品。对 Anthropic 而言,这笔合同直接为 Managed Agents 的扩张兜底——多 agent 编排、Outcomes 反复迭代、Dreaming 的夜间训练,每一项都是对推理算力的乘数级消耗,没有 Colossus 这种规模的额外容量,发布会上的 PPT 第二天就会变成限流公告。
第三条线是把以上一切放回安全语境。Alex Albert 公布的早期 Claude Mythos Preview 在 METR 评估上时间跨度超过下一名最佳模型 2 倍以上,而 Mozilla 在 Simon Willison 的转述 里描述了 Claude Mythos 把 Firefox 的安全漏洞修复速度从每月 20-30 个推到 2026 年 4 月的 423 个,并发现多个潜伏 15-20 年的历史 bug——这是一条质变曲线,AI 安全工具从"垃圾报告制造机"升级为可信赖的代码审计员。但 Anthropic 同步上传的两篇论文给出了硬币的另一面。Model Spec Midtraining 显示在预训练后、对齐微调前训练模型阅读 Model Spec 文档,可以把 Qwen3-32B 的 agentic misalignment 从 54% 压到 7%,远好于 deliberative alignment 的 14%;Jailbroken Frontier Models Retain Their Capabilities 则提醒,Boundary Point Jailbreaking 几乎完美绕过分类器且零能力退化,"越狱后能力下降"不能再作为安全论证的支柱。配合 Natural Language Autoencoders 把 activation 翻译成人类可读文本的解释性进展,这套组合拳的姿态是清晰的:Anthropic 知道 Managed Agents 范式一旦铺开,单个 agent 的越狱、自我保留、目标守护都会被放大成系统性风险,所以它必须同时把"塑造 spec 内化"、"看见 activation"、"承认越狱不掉能力"三件事都摆上桌。
把三条线合起来看,Code with Claude 2026 真正交付的不是某一个产品,而是一种新的 Agent 经济学结构——产品层提供持续运营和自我改进,算力层用对手的 GPU 撑起爆发增长,安全层则用 spec midtraining 和可解释性给"夜间自学"上保险。下一年值得盯的指标,是有多少家企业把 Claude Cowork 写进自己的 ERP 流程,以及"一人独角兽"会在哪个垂直行业里第一次跑出 ARR。

AI 推理基础设施:内存、带宽与数据移动取代 FLOPS 成为新瓶颈

本周的 AI 基础设施叙事在一条主轴上同时被多家厂商和研究团队拉紧:单位 token 的算力成本仍在指数级下降,但整个推理负载的形态正在从"算得快"切向"喂得饱"。当 Mooncake 把 vLLM 的 KV cache 命中率从 1.7% 推到 92.2%、当 OpenAI 联合五家硬件厂商发布开放网络协议、当 DeepSeek 自报 98.7% 的 KV-cache 复用率时,一个共识已经成型——推理基础设施的瓶颈,不再是 GPU FLOPS。
经济学先告诉了答案。Nebius Token Factory 的 demian_ai 长文 给出了一个粗粝但有力的数字账本:12 个月里 1M tokens 的 frontier-class reasoning 推理价格从约 60 美元降到 0.5 美元,128 倍。然而 Anthropic 与 xAI/Amazon 签了多年产能合约,微软 2026 capex 指引看到八字头,OpenAI 单季 compute 支出已经超过 2023 年全年,Nvidia 又用 200 亿美元收购 Groq——所有 hyperscaler 的总账单同步翻 100 倍。原因在分子端:reasoning 模型用 ~10x output tokens、agentic workflow 链 ~20x request、deep research 单次查询 compute 是原 GPT-4 query 的 10 倍。"100x 便宜的 token × 10000x 更多 token = 100x 更大的账单"——1865 年蒸汽机引出的 Jevons paradox 在万亿美元尺度上重演,而推理是 always-on 24/7、与训练的 bursty 形态全然不同。这篇文章最锋利的一句话:KV cache 是 inference era 的"沉默怪兽"。
工作负载的物理特征正在改变内存层级的定义。TheValueist 转述的 DeepSeek DualPath 数据 把这一点量化得近乎残忍:agentic workload 平均 157 轮、上下文 32.7K、每轮仅 append 429 个新 token,KV-cache 命中率 98.7%——这意味着每 PFLOP 计算被约 22 GB 的 cache-compute 压力拽住。结论非常直白:HBM 留给 active execution,DRAM 做 staging 与 metadata,企业级 SSD/NAND 承担 hot/warm KV cache 持久化,HDD 做冷层;而 RDMA、NIXL、GPUDirect、QoS 网络共同决定 GPU 是否被喂饱。CPU-to-GPU 比例也在重写:训练时代的 1:8、聊天推理 1:4,到 agentic 推理就变成 1:1、甚至 CPU-heavy。这同时解释了为什么内存与封装板块(美光 $MU、闪迪 $SNDK、东芝存储 $TOWCF 等)的估值在 re-rating,也解释了 Google 为什么把 TPU 拆成专门的推理芯片线、并把 SRAM 容量翻三倍专门服务 KV cache。
本周的工程发布几乎是这套理论的逐条注脚。最有冲击力的是前文已提到的 vLLM × Mooncake:把分布式 KV cache 池接入 vLLM 之后,agentic 80K+ token 轨迹中 94%+ 的可复用前缀不再被本地驱逐、跨实例命中率从 1.7% 拉到 92.2%,吞吐 3.8x、P50 TTFT 降到 1/46、E2E 延迟降到 1/8.6,并近线性扩展到 60 张 GB200。这是 2026 Q1 那批分布式 KV cache 池研究第一次进入工业级开源主线。同一周,Perplexity 公布自研 ROSE,借 CuTeDSL 加速 Hopper/Blackwell 上的专用 kernel;NVIDIA 推出 TokenSpeed/Lightseek,主打"speed-of-light agentic workload"——advanced KV cache management、可插拔 layered kernel、Blackwell 上最快的 MLA attention kernel;vLLM-Omni v0.20.0 通过 talker/code2wav 多副本扩展把 Qwen3-Omni H20 吞吐拉高 72%,并把 diffusion 推理切成 step-level 动态 batching。一个本是"模型框架"的版本号,今天发布说明里大半篇幅都在讲调度与 cache 层级。再上一层,OpenAI 联合 AMD/Broadcom/Intel/Microsoft/NVIDIA 发布 MRC(Multipath Reliable Connection)开放协议——当 GPU 等数据的时间成为系统瓶颈,"省 GPU 时间"必须先变成网络层的协议工作。
算法侧也在围绕"少搬数据、少算无效 token"重写。Sakana × NVIDIA 的 TwELL 格式 直接挑战 GPU 不友好的 unstructured sparsity:观察到 LLM feedforward 层 >95% 神经元静默,TwELL 把 99% 高稀疏 token 路由到快速路径,用 dense backup matrix 处理 rare/heavy token,配合自定义 CUDA kernel 在 H100 上拿到 +20% 速度,并节省内存与能耗。Snowflake 的 ZeRO-Prefill 针对 MoE prefill-only 负载提出 AsyncEP——按权重 gather expert 而非按激活路由——在 Qwen3-235B-A22B 上跑出 1.35-1.59x 吞吐和 29.8-36.2% per-GPU MFU。USTC 的 EVICT 解决 tree-based 投机解码在稀疏 MoE 上失效的问题——不同 branch 激活不同 expert——提出 training-free 的自适应验证截断,相对自回归 2.35x 加速、相对 SOTA EAGLE-3 平均 1.21x。Google 的 Gemma 4 Multi-token Prediction Drafters 把 MTP 训练(独立 drafter、联合训练、蒸馏)和投机解码连成一条 3x 加速的工程路径并直接开源;Berkeley BAIR 的 Adaptive Parallel Reasoning 综述 则把 ThreadWeaver、Multiverse、Skeleton-of-Thought 等并行推理控制方法系统化——这些都是把 reasoning 的 10x output token 折叠回更小有效计算的尝试。
两个看似偏门的工作把这个版图补完。Meta FAIR 的 Compute Optimal Tokenization 在 988 个 BLT 模型上得到一个反 Kaplan/Hoffmann 的结论:compute-optimal 配置下,模型参数量与数据 byte 数成正比、而非 token 数;最优压缩率随 compute 减小、并不等于 BPE 默认值。当 token 本身的"长度单位"都不再固定,单位 FLOPS 的语义也在松动,这进一步把瓶颈从"算多少"推向"算什么、搬什么"。ServiceNow 的 vLLM V0→V1 RL 训练正确性踩坑 则提醒整个生态:当推理引擎承担越来越多在线训练(rollout)职责时,logprob 语义、in-flight 权重更新路径、fp32 lm_head 精度这些过去无人关心的细节,会直接决定 RL 训练能否复现——推理引擎正在从"serving 工具"长成"训练-推理共生系统"的一极。
把本周的散点连起来:经济学(Jevons + 100x 账单)→ 工作负载特征(98.7% KV 复用、157 轮 agent)→ 内存层级(HBM/DRAM/SSD/HDD 四级)→ 网络协议(MRC)→ 推理引擎(Mooncake/ROSE/TokenSpeed/vLLM-Omni)→ 算法(TwELL/ZeRO-Prefill/EVICT/MTP/APR)→ Tokenization(BLT 重写 scaling 律),是一条完整的、自洽的产业重构路径。未来 2-3 个季度的真实赢家,不会是"FLOPS 最大的芯片",而是能把"agentic 长 session 状态"在 HBM/DRAM/NAND/网络间最便宜地搬运的那套系统——这也是为什么 NAND/HBM 的资本市场 re-rating 与开源推理引擎的发布节奏,本周第一次在同一时段对齐。下一个值得盯紧的信号,是分布式 KV cache 池从框架特性升级为 SLA 标的,以及 reasoning/agent 应用是否开始按"cache 命中率"而非"token 数"计价。

Agent 记忆系统:从无状态拼接走向跨任务累积学习

本周多篇论文与开源项目同时攻击同一痛点:今天的 Agent 每次任务都从零开始,没有跨 session 的累积。HKUST 的 XSKILL 用"技能 + 经验"双记忆把硬基准的提升推到最高 11.13 个百分点,更引人注意的是 Gemini 学到的知识可零额外训练直接迁移到 GPT-5-mini 和 o4-mini——agent 的记忆开始具备跨模型 portable 的属性。
研究侧的范式转变同样明显。Sauron Labs 的 True Memory 提出"Storage Is Not Memory"——主张把架构重心从"存储 schema"切换到"多阶段检索流水线,事件原文保留",整个系统只跑在一个 SQLite 文件、CPU 上无 GPU,却在 LoCoMo 上拿到 93.0% 准确率,远高于 Mem0(61.4%)和 Supermemory(65.4%)。MemTensor 的 MemReranker 走另一条互补路径:把 Qwen3-Reranker 通过多教师蒸馏 + InfoNCE 训成针对 agent memory 的小型 reranker(0.6B/4B),在 memory 检索 benchmark 上匹配 GPT-4o-mini,4B 版本达到 0.737 MAP,延迟仅大模型的 10-20%。Voltropy 的 LCM (Lossless Context Management) 则把 Recursive Language Models 的思路工程化——用层次化 summary DAG 自动压缩历史消息但保留无损指针,配合 LLM-Map 把递归改写成 engine-managed 并行原语,最终在 OOLONG eval 32K-1M tokens 全段击败 Claude Code。
工程侧 CocoIndex 把"增量同步"作为 agent 上下文管道的一等公民,只处理变更部分,5 分钟搭起一条生产级 pipeline,直接对标传统批处理 RAG 的数据陈旧问题。基准侧,Continual Learning Bench 1.0 第一次为"在线学习场景"提供专家校验任务集,把 10+ 前沿系统对齐到同一标尺。最后是一个落地的提醒:svpino 的实测 表明在大语料、模糊查询、并发写入场景下数据库仍然胜过纯文件 agent 记忆——文件系统是好接口但不是 production 答案。本周这组工作合在一起,意味着 agent memory 终于走出"prompt 历史 + 向量 + 总结"的旧三件套,开始把检索、压缩、累积、迁移看成一个完整的工程系统。

AI 做科研:从协作数学家到独立漏洞挖掘

本周三个具体案例把 AI 从"加速研究"推到"独立产出研究成果"的边界。最戏剧性的是 DeepMind AI co-mathematician:仅靠 Gemini 3.1 Pro 单模型在 FrontierMath Tier 4(专业数学家需要数周的研究级问题)只能拿 19%,加上 agentic scaffolding——并行 agent 互相 review、写代码、查文献——分数跳到 48%,并且配合 Marc Lackenby 解开了 Kourovka 笔记本的一道开放问题。值得对照的是它也明确披露了"绕开标准评测 harness、48 小时每题、无 token 限制"的方法论,因此这个 48% 不能直接和其他模型 leaderboard 比较——但论文真正的价值不在分数,而在于 reviewer-pleasing bias、death spiral 这些被首次系统命名的失败模式。
另一头是 OpenAI 物理学家 Alex Lupsasca 在 Latent Space 播客 演示的"Vibe Physics":GPT-5 在 11 分钟内复现了他自己一篇训练截止后才发表的论文,并帮他导师解开了困扰一年多的物理问题。Lupsasca 用"AI 锯齿前沿"形容这种状态——AI 在科学前沿的进步远超日常任务。Mozilla 的 Firefox + Claude Mythos 则给出了产业版本:每月修复漏洞数从约 20-30 跃到 423,发现 15-20 年的历史 bug,AI 安全报告完成"垃圾报告 → 高价值"的口碑反转。
把这些案例与本周的两份"宏观判断"并读会更立体。Jack Clark 在 Twitter 公开预测递归自我改进有 60% 概率在 2028 年底前发生,Import AI 455 同步用 SWE-Bench/METR/GPQA 数据集论证 2028 年前 60%+ 概率出现无人类参与的 AI R&D。两篇文章不是凭空预测,而是把本周这些"AI 解物理/数学/安全问题"的具体案例当作论据。同周可执行的工程方向也清晰浮现:Sakana 的 7B Conductor 模型 用 RL 把"协调其他 LLM"训成一种独立能力,在 GPQA-Diamond 和 LiveCodeBench 上达到 SOTA,用编排带来的提升相当于一代模型升级;Sentient 的 EvoSkill V1 则展示了同样思路在 coding agent 上的版本——失败轨迹反馈到新 prompt/skill,OfficeQA 60.6% → 68.1%、SealQA 26.6% → 38.7%。HKUST/CUHK/Tencent AI Lab 的 SciResearcher 和 Microsoft Research 的 Agentic-imodels 则从数据合成与可解释性两侧补完这条 agent 工程化路径。这条线的潜台词是:AI 当研究员所需要的,已不只是更聪明的模型,而是"评估、协调、记忆、自动改进"四件事一齐到位的 agentic 工程。

语音 AI 进入推理 Agent 时代

OpenAI 同日推出三个新实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper,把 GPT-5 级推理能力下放到语音管线。最重要的能力跃迁不是音质,而是 GPT-Realtime-2 引入了可调节的"推理努力度"(minimal 到 xhigh)、并行工具调用、128K 上下文和更自然的中断恢复——OpenAI 官方推 直接定位它为"voice agent 的实时合作者"。配套的 Translate 覆盖 70+ 输入语言到 13 个输出语言流式翻译,Whisper 提供流式转录与字幕,整套 API 同步公开,配合 OpenAI Blog 的开发者接入文档,意味着语音 AI 第一次可以像文本 agent 那样"边说边推理边调工具"。
落地侧两个例子值得对照。Runway 实时视频 Agent 把单张图片变 24fps 高清对话视频、端到端延迟 1.75 秒——这把语音 agent 的"嘴"补上了。Parloa 的客服 case 则展示了 OpenAI 模型在企业级语音客服的设计-模拟-部署链路,强调它解决了传统客服系统在"复杂客户意图理解"和"对话连贯性"上的痛点。以前的语音 SDK 把 STT、LLM、TTS 三件事拼成 pipeline,而本周这一拨发布把它们折叠成可推理、可工具调用的单一实时 agent——下一年值得盯的指标,是有多少呼叫中心、车载 OS、可穿戴设备 OEM 把这种 agent 模式写进 SLA。

企业 Agent 商业化新阶段:支付、电商、桌面控制全线落地

Agent 本周从"生成内容"集中跨入"完成交易和操作系统级动作"。最具范式意义的是 AWS Bedrock AgentCore Payments 的预览版——这是首个面向自主 Agent 的托管端到端支付能力,与 Coinbase 和 Stripe 合作支持 x402 协议,让 Agent 能在推理循环中动态访问付费 API、MCP 服务器和网页内容,无需开发者手动配置每个计费关系。这把"Agent 经济"从设想推进到具体基础设施层面。
桌面与浏览器层面同样补齐。AWS AgentCore Browser 推出 OS Level Actions 让 agent 通过 InvokeBrowser API 执行系统级鼠标/键盘/截图,突破了 Playwright/CDP 只能操作 DOM 的局限——OS 原生对话框、安全提示、右键菜单都能进入 agent 的截图-推理-操作循环。NVIDIA × ServiceNow 的 Project Arc 是同一思路的企业级桌面版本:长期运行、自我进化的桌面 Agent 接管本地文件系统、终端和应用,用 NVIDIA OpenShell 安全运行时配合 ServiceNow Action Fabric,并强调 Blackwell 平台让每瓦 token 输出提升 50 倍、成本降 35 倍。配合 AWS AgentCore Optimization 质量循环 提供基于生产 trace 的优化推荐 + 批量评估 + A/B 测试,整个 AWS Agent 栈第一次把"上线 → 监控 → 优化"做成闭环。
垂直行业侧,Shopify 为 Hermes Agent 推出官方 Skill 让 agent 自主管理产品/库存/订单/履约——电商运营第一次有了开箱即用的 agent 接入。最具说服力的是 Andrew Wilkinson 用 Claude Code 运营 40+ 企业的实战:Deep Personality SaaS 单产品 $20K 收入零员工,agent 接管 support/marketing/dev,关键的 marketing agent 直接对接 PostHog、管理 Meta/Reddit 投放并跑多变量测试。把这些案例叠在一起看,企业 Agent 从概念走到 ARR 的速度本周明显提了一档——支付、桌面、电商三个最难自动化的环节同时给出了官方落地方案。

📌 本周简讯

  • GPT-5.5 Instant 与 GPT-5.5-Cyber 同周登场——OpenAI 把 GPT-5.5 Instant 滚动为 ChatGPT 默认模型,强调更简洁、更准确、更个性化;同步发布的 GPT-5.5-Cyber 面向已验证的网络安全防御者提供"可信访问",两者一同把 GPT-5.5 系列的产品矩阵补完。Satya Nadella 当天宣布该模型已接入 M365 Copilot 与 Foundry。
  • ARC-AGI-3 重置 AGI 评分板——François Chollet 发布 ARC-AGI-3:135 个全新游戏环境、无指令、无规则。未训练的人类全部 100% 通过,所有前沿模型(Gemini 3.1 Pro、GPT-5.4、Opus 4.6、Grok-4.20)得分均低于 1%。Kaggle 提供 200 万美元奖金,所有获奖方案需开源——给"scaling 不能闭合 AGI 差距"的论点加了一记硬指标。
  • Allen AI 推出 EMO MoE 模型——EMO 用端到端预训练让模块化结构从数据中自然涌现,14B 总参数 / 1B 激活,仅使用 12.5% 专家(16/128)即可在特定任务上保持接近全模型性能。专家形成代码、数学、生物等高层语义集群,而非低层词汇模式——给了 MoE 路由"为什么有效"一个新的可解释性视角。
  • Albert Gu 发布 Raven 序列模型——Raven 桥接 SSM 与 sliding window attention:state 是有限 slot 集合(像 SWA),但学习选择性地决定哪些 slot 用新 token 更新,检索能力远强于此前的线性模型。Gu 认为这是 SWA 的严格更优替代品,也为"如何把 SSM 与 attention 各自的优点合一"提供了新框架。
  • Stratechery 财报周与 AI 商业化对照——Stratechery 在 Amazon's Durability 把 ASCS 物流业务与 AWS 演进对照 AI 基础设施,本周还连发 Microsoft/Apple 财报Google/Meta 财报 的对比分析,提出 Google 的 AI 收益可能部分来自 Anthropic 投资这种反直觉判断——是理解本周 AI 算力账单与各家财报反应的最佳一篇视角。
  • AI
  • 周报
  • 技术趋势
  • 推荐周报 2026-W19AI 技术日报 - 2026-05-09
    Loading...