AI周报 2026-W19 | Recsys Frontier

type

Post

status

Published

date

May 9, 2026 09:17

slug

ai-weekly-2026-W19

summary

本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming（夜间自我改进）和桌面 Claude Code，配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览，把 Agent 从"一次性脚本"完整推进到"持续运营单元"。紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验，从同一周的不同角度证明：harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字，"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。第三条线是基础设施。推理 token 价格一年降 100x，但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率，OpenAI 联合五家硬件厂商发布 MRC 网络协议，Perplexity 自研 ROSE 引擎，NVIDIA 开源 TokenSpeed，再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。

📊 本周概览

紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验，从同一周的不同角度证明：harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字，"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。

第三条线是基础设施。推理 token 价格一年降 100x，但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率，OpenAI 联合五家硬件厂商发布 MRC 网络协议，Perplexity 自研 ROSE 引擎，NVIDIA 开源 TokenSpeed，再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。

Agent Harness Engineering：上下文工程与 Token 经济正在替代"换更强模型"

本周 Agent 领域最密集的信号几乎全部指向同一个方向：让 coding agent 跑得更好不再靠加大模型，而是靠重写它周围的脚手架。从复旦/北大的论文、Microsoft 的小模型 subagent，到 GitHub 自家的 token 审计工作流、vLLM 的 KV cache 池，再到 Twitter 上一线工程师的 plumbing 心得，整个生态在一周内交出了一份系统化的"harness engineering"方法论。

最具学术分量的是复旦/北大/上海岐迹智锋提出的 Agentic Harness Engineering (AHE)。它的论点足够直白——coding agent 的瓶颈不在基础模型，而在 harness——并把这个论点变成了一套可执行的闭环：tools、middleware、memory、system prompt 全部以显式文件存在（component observability），rollouts 蒸馏成分层证据语料（experience observability），每次编辑都附带"应该修哪些 task、可能破坏哪些"的预测（decision observability）。10 轮迭代就把 Terminal-Bench 2 的 pass@1 从 69.7% 推到 77.0%，超过手工 harness 与 ACE/TF-GRPO 等自我进化基线，token 消耗反而比 seed 少 12%；更关键的是这套进化出的 harness 跨 DeepSeek/Qwen/Gemini 三个模型族都能拿到 +5.1 到 +10.1 pp 的增益，无需重新训练。一个反直觉细节值得圈出：单独换 system prompt 反而让性能回退 2.3 pp，而 tools、middleware、long-term memory 单独换都能提升——这说明 prompt 已经被过度调优，剩余 headroom 在更"基建"的层面。

如果说 AHE 给了方法论，Microsoft 的 Terminus-4B 给的就是工业证据：把 Qwen3-4B 通过 SFT + rubric-based RL 微调成专用 subagent，主 agent 的 token 用量直接砍掉 30%，而且在 SWE-Bench Pro 和内部 C# benchmark 上不掉点，甚至常常超过用 Claude Sonnet/Opus、GPT-5.3-Codex 当 subagent 的版本。这是一个值得停下来想的结论——"frontier model 当 subagent"这个默认假设第一次被一个 4B 小模型系统性证伪。Cursor 几乎同时上线的 /orchestrate 走的是同一思路的产品化版本：用 Cursor SDK 递归生成 agent，他们自己的 autoresearch skills 减少 20% token 同时提升 evals，后端冷启动降低 80%。委派、子代理、技能复用，从论文到生产线在一周内合上。

来自一线的 plumbing 视角则更具体也更扎心。Command Code 的 Ahmad Awais 用 4 个底层修改让 Kimi K2.6 在内部 eval 上追到 Opus 4.7 的 5/10、DeepSeek V4 Pro 到 6/10。其中"最大的单一改进"不是模型也不是 prompt，而是 sticky session header——开源模型没有 product-tier prompt cache，只能依赖 inference server 的 prefix cache，但负载均衡把同一对话连续轮次分发到不同 GPU pod，每个都得重 prefill 约 10K token 前缀，TTFT 6-8 秒；soft pin 同 session 到同 pod 后 TTFT 跌到 1 秒以下。他给出的判断很犀利："开源模型编码差"很多时候是"开源模型在 cold cache 上跑"，是 harness 而非模型问题。这个观察在系统层面被 vLLM × Mooncake 同周交出的数字坐实——agentic 轨迹长到 80K+ tokens、94% 可复用 prefix，但本地 KV cache 驱逐它们、cross-instance routing 错过它们；接入 Mooncake 分布式 KV pool 后 cache hit rate 从 1.7% 拉到 92.2%，吞吐 3.8x，P50 TTFT 降 46x，扩展到 60 张 GB200 仍 >95% 命中（这一组数字在本周报后文的"AI 推理基础设施"章节还会再出现一次，那是同一发布的另一面）。这是同一个问题在两个抽象层的回响：上层换 session header，底层换分布式 KV，目标都是别让长上下文白白重算。

工具侧的爆发同样指向"管住发出去的 token"，但具体路径分两条：一条是把工具输出在落入对话之前先压扁，一条是把"工程经验"封装成可复用资产。前者中最具示范性的是 GitHub 自己的 Token Efficiency 实践——把 API 代理统一日志、再跑两个自动化工作流（Daily Token Usage Auditor 和 Optimizer），具体动作朴素得令人意外：移除未使用的 MCP 工具每轮省 8-12KB 上下文，用 GitHub CLI 替代 MCP 减少 LLM 调用轮次。开源侧 Context Mode 在 80 小时 Opus pair programming 中省下 $487、把 6.2 MB raw output 压到 124 KB context、98% 削减，靠的是 5 个生命周期 hook 在 tool output 落入对话前拦截、把代码送进数据而不是把数据拉进模型、26 个 event category 跨 compaction 携带 session 状态。Insforge Skills + CLI 给出的实测是 10.4M → 3.7M tokens、错误从 10 降到 0、成本 $9.21 → $2.81。code-review-graph 用 Tree-sitter 把代码库做成结构化知识图谱，审查任务减 6.8x token、日常编码最高 49x；9Router 加上路由层和工具输出压缩节 20-40% token；RunTrim CLI 把 memory/scope/control 层在 Claude/Codex/Cursor/Kimi 之间通用化。一份 10 工具盘点把 microsoft/LLMLingua、mem0、litellm、llama_index、aider 等串起来时给出了那句近乎结论的判断——"大部分 agent 贵不是因为模型贵，而是没人检查发了什么"。

工程经验的资产化是另一道支线。forrestchang/andrej-karpathy-skills 把 Karpathy 的 4 条原则压成 CLAUDE.md，addyosmani/agent-skills 用累计 35.7k 星把资深工程师的需求/规划/构建/测试/部署流程编码为斜杠命令；reach_vb 演示的 /plugin marketplace add openai/codex-plugin-cc 直接把 Codex 的 review/adversarial-review/rescue 装进 Claude Code，则把"竞品 coding agent 互相组合"从设想变成一行命令。这条线的潜台词是：skills 不再被当作 prompt 模板，而是被当作可版本化、可审计、可跨 harness 复用的工程产物——和 AHE 把每个组件当成显式文件、Microsoft 把 subagent 训成单独的 4B 模型，是同一种工程化冲动。

回头看一年前的脉络，2024-2025 的研究重心几乎全压在"训更好的代码模型"，零星出现的 harness/skills 项目多为单点工具或局部优化。本周的不同在于密度和层次——同一周内同时落地了论文化方法（AHE）、工业实践（GitHub token 审计、Microsoft Terminus-4B）、底层基建（vLLM × Mooncake KV pool）、跨厂商工具（RunTrim、9Router、Codex × Claude Code 互通）。当 token 节省 30%、98%、3.8x 这样的数字开始稳定出现在 harness 层而不是模型层，"换更强模型"作为默认动作正在被替换成"先看 harness 还有多少没榨干"。下一个值得盯的问题大概是：当 harness 进化变成自动化闭环（AHE 那种 10 轮就能涨 7 个点），harness 本身会不会成为新的护城河——比模型权重更难复制，因为它编码的是组织的工程经验。

Code with Claude 2026 大会：从 Claude Managed Agents 到 Dreaming，自我改进型 Agent 范式登场

本周 AI 行业最值得拆解的事件，是 5 月 6 日落幕的 Code with Claude 2026 大会。这是 Anthropic 的第二届年度开发者大会——一年前的首届主要发布了 Claude Code，今年则把 Claude Code 升级为一整套 Managed Agents 范式，并配合一笔可能改写算力市场结构的 $5B/年 SpaceX 算力交易和一份让 Mozilla 单月修复 423 个 Firefox 漏洞的安全模型预览。这三条线本不是同一件事，但摆在一起，恰好勾勒出 Anthropic 当前的产品哲学：把 Agent 从"一次性脚本"升级为有自我改进闭环的"持续运营单元"，再用底层算力和可信度兜底。

正面看产品发布。Simon Willison 的现场实时记录给出了最完整的清单：Claude Managed Agents 新增多 Agent 编排、Outcomes（用户设定成功标准让 Claude 迭代直到达成）、桌面版 Claude Code，以及最具研究气质的 Dreaming——夜间自我改进，离线生成记忆。Anthropic 官方账号在当天的发布推中确认 Dreaming 以 research preview 形式上线，而 Outcomes、多 Agent 编排和 webhooks 进入公开 beta。这四个能力组合起来对应一条非常清晰的认知模型：一个 agent 不再只是被动响应单次任务，而是有"目标—执行—多协作者—夜间复盘"四个槽位。Outcomes 把"提示工程"变成了"目标工程"，多 agent 编排把工具调用变成了组织协作，Dreaming 则补上了过去 LLM agent 最缺的一环——跨 session 的非交互式学习。值得注意的是，这套范式之前已经在第三方生态里被反复验证过，社区里"Teams-first multi-agent orchestration"和"单 session 拆成 49 个 agent 工作室"这类实验都说明社区已经走到了这一步。Anthropic 这次相当于把社区里事实上的 best practice 收编为官方一等公民，再以 claude-plugins-official（累计 18.9k 星）作为 marketplace 入口，anthropics/financial-services（累计 15.5k 星）作为完整垂直行业参考实现——后者尤其有意思，每个 agent 同时以 Claude Cowork（Anthropic 推出的协同工作产品线）插件和 Managed Agent API 两种形态交付，等于官方亲自示范了"如何把垂类 SaaS 工作流写成 Managed Agent"。

Dreaming 的范式意义需要单独点破。它不是一个炫技的 demo，而是 LLM agent 第一次从"无状态服务"走向"有夜班的运营单元"。业内已经有解读把 Dreaming 描述为 agent 异步回顾历史会话、清理重复记忆、提炼新洞察、跨 session 学习，与 Anthropic 在大会上的官方表述一致。组合 Outcomes 看更清楚：白天 Outcomes 让 agent 反复迭代直到拿到结果，夜里 Dreaming 把这些结果和失败路径压缩成新的记忆，第二天的 agent 就比昨天的强一点。这是一个标准的内外循环优化结构，Latent Space 的 AINews 在总结时正是用"自动改进 Agent、内外循环优化"来概括 Claude Code 的新能力。Dario Amodei 在大会上预测 2026 年会出现"一人独角兽"，RoundtableSpace 的推文把它包装成"零员工公司剧本"，话术虽然营销，但底层逻辑是成立的——只有当 agent 具备夜间自我改进和多 agent 编排，"一个人配一支 AI 员工队伍"才不再是脚本拼贴，而是真正可运营的组织。

第二条线是算力。同一天，xAI 官方账号宣布 SpaceXAI 将向 Anthropic 提供 Colossus 1 算力。Latent Space 给出的细节是 $5B/年、300MW，xAI 自己则转型为 neocloud；Anthropic 的 ARR 据其披露在 8000% 年化增长，API 流量同比 17 倍。这笔交易在历史脉络里相当反常——Anthropic 与 xAI 长期被视为安全路线和加速路线的对立面，本周却互为客户与供应商。这说明前沿算力已经稀缺到可以让意识形态对手坐到同一张合同上，也说明一个"中性算力市场"正在浮现：模型厂商之间不必是零和博弈，因为算力本身已经成为可以独立结算的商品。对 Anthropic 而言，这笔合同直接为 Managed Agents 的扩张兜底——多 agent 编排、Outcomes 反复迭代、Dreaming 的夜间训练，每一项都是对推理算力的乘数级消耗，没有 Colossus 这种规模的额外容量，发布会上的 PPT 第二天就会变成限流公告。

第三条线是把以上一切放回安全语境。Alex Albert 公布的早期 Claude Mythos Preview 在 METR 评估上时间跨度超过下一名最佳模型 2 倍以上，而 Mozilla 在 Simon Willison 的转述里描述了 Claude Mythos 把 Firefox 的安全漏洞修复速度从每月 20-30 个推到 2026 年 4 月的 423 个，并发现多个潜伏 15-20 年的历史 bug——这是一条质变曲线，AI 安全工具从"垃圾报告制造机"升级为可信赖的代码审计员。但 Anthropic 同步上传的两篇论文给出了硬币的另一面。Model Spec Midtraining 显示在预训练后、对齐微调前训练模型阅读 Model Spec 文档，可以把 Qwen3-32B 的 agentic misalignment 从 54% 压到 7%，远好于 deliberative alignment 的 14%；Jailbroken Frontier Models Retain Their Capabilities 则提醒，Boundary Point Jailbreaking 几乎完美绕过分类器且零能力退化，"越狱后能力下降"不能再作为安全论证的支柱。配合 Natural Language Autoencoders 把 activation 翻译成人类可读文本的解释性进展，这套组合拳的姿态是清晰的：Anthropic 知道 Managed Agents 范式一旦铺开，单个 agent 的越狱、自我保留、目标守护都会被放大成系统性风险，所以它必须同时把"塑造 spec 内化"、"看见 activation"、"承认越狱不掉能力"三件事都摆上桌。

把三条线合起来看，Code with Claude 2026 真正交付的不是某一个产品，而是一种新的 Agent 经济学结构——产品层提供持续运营和自我改进，算力层用对手的 GPU 撑起爆发增长，安全层则用 spec midtraining 和可解释性给"夜间自学"上保险。下一年值得盯的指标，是有多少家企业把 Claude Cowork 写进自己的 ERP 流程，以及"一人独角兽"会在哪个垂直行业里第一次跑出 ARR。

AI 推理基础设施：内存、带宽与数据移动取代 FLOPS 成为新瓶颈

本周的 AI 基础设施叙事在一条主轴上同时被多家厂商和研究团队拉紧：单位 token 的算力成本仍在指数级下降，但整个推理负载的形态正在从"算得快"切向"喂得饱"。当 Mooncake 把 vLLM 的 KV cache 命中率从 1.7% 推到 92.2%、当 OpenAI 联合五家硬件厂商发布开放网络协议、当 DeepSeek 自报 98.7% 的 KV-cache 复用率时，一个共识已经成型——推理基础设施的瓶颈，不再是 GPU FLOPS。

经济学先告诉了答案。Nebius Token Factory 的 demian_ai 长文给出了一个粗粝但有力的数字账本：12 个月里 1M tokens 的 frontier-class reasoning 推理价格从约 60 美元降到 0.5 美元，128 倍。然而 Anthropic 与 xAI/Amazon 签了多年产能合约，微软 2026 capex 指引看到八字头，OpenAI 单季 compute 支出已经超过 2023 年全年，Nvidia 又用 200 亿美元收购 Groq——所有 hyperscaler 的总账单同步翻 100 倍。原因在分子端：reasoning 模型用 ~10x output tokens、agentic workflow 链 ~20x request、deep research 单次查询 compute 是原 GPT-4 query 的 10 倍。"100x 便宜的 token × 10000x 更多 token = 100x 更大的账单"——1865 年蒸汽机引出的 Jevons paradox 在万亿美元尺度上重演，而推理是 always-on 24/7、与训练的 bursty 形态全然不同。这篇文章最锋利的一句话：KV cache 是 inference era 的"沉默怪兽"。

工作负载的物理特征正在改变内存层级的定义。TheValueist 转述的 DeepSeek DualPath 数据把这一点量化得近乎残忍：agentic workload 平均 157 轮、上下文 32.7K、每轮仅 append 429 个新 token，KV-cache 命中率 98.7%——这意味着每 PFLOP 计算被约 22 GB 的 cache-compute 压力拽住。结论非常直白：HBM 留给 active execution，DRAM 做 staging 与 metadata，企业级 SSD/NAND 承担 hot/warm KV cache 持久化，HDD 做冷层；而 RDMA、NIXL、GPUDirect、QoS 网络共同决定 GPU 是否被喂饱。CPU-to-GPU 比例也在重写：训练时代的 1:8、聊天推理 1:4，到 agentic 推理就变成 1:1、甚至 CPU-heavy。这同时解释了为什么内存与封装板块（美光 $MU、闪迪 $SNDK、东芝存储 $TOWCF 等）的估值在 re-rating，也解释了 Google 为什么把 TPU 拆成专门的推理芯片线、并把 SRAM 容量翻三倍专门服务 KV cache。

本周的工程发布几乎是这套理论的逐条注脚。最有冲击力的是前文已提到的 vLLM × Mooncake：把分布式 KV cache 池接入 vLLM 之后，agentic 80K+ token 轨迹中 94%+ 的可复用前缀不再被本地驱逐、跨实例命中率从 1.7% 拉到 92.2%，吞吐 3.8x、P50 TTFT 降到 1/46、E2E 延迟降到 1/8.6，并近线性扩展到 60 张 GB200。这是 2026 Q1 那批分布式 KV cache 池研究第一次进入工业级开源主线。同一周，Perplexity 公布自研 ROSE，借 CuTeDSL 加速 Hopper/Blackwell 上的专用 kernel；NVIDIA 推出 TokenSpeed/Lightseek，主打"speed-of-light agentic workload"——advanced KV cache management、可插拔 layered kernel、Blackwell 上最快的 MLA attention kernel；vLLM-Omni v0.20.0 通过 talker/code2wav 多副本扩展把 Qwen3-Omni H20 吞吐拉高 72%，并把 diffusion 推理切成 step-level 动态 batching。一个本是"模型框架"的版本号，今天发布说明里大半篇幅都在讲调度与 cache 层级。再上一层，OpenAI 联合 AMD/Broadcom/Intel/Microsoft/NVIDIA 发布 MRC（Multipath Reliable Connection）开放协议——当 GPU 等数据的时间成为系统瓶颈，"省 GPU 时间"必须先变成网络层的协议工作。

算法侧也在围绕"少搬数据、少算无效 token"重写。Sakana × NVIDIA 的 TwELL 格式直接挑战 GPU 不友好的 unstructured sparsity：观察到 LLM feedforward 层 >95% 神经元静默，TwELL 把 99% 高稀疏 token 路由到快速路径，用 dense backup matrix 处理 rare/heavy token，配合自定义 CUDA kernel 在 H100 上拿到 +20% 速度，并节省内存与能耗。Snowflake 的 ZeRO-Prefill 针对 MoE prefill-only 负载提出 AsyncEP——按权重 gather expert 而非按激活路由——在 Qwen3-235B-A22B 上跑出 1.35-1.59x 吞吐和 29.8-36.2% per-GPU MFU。USTC 的 EVICT 解决 tree-based 投机解码在稀疏 MoE 上失效的问题——不同 branch 激活不同 expert——提出 training-free 的自适应验证截断，相对自回归 2.35x 加速、相对 SOTA EAGLE-3 平均 1.21x。Google 的 Gemma 4 Multi-token Prediction Drafters 把 MTP 训练（独立 drafter、联合训练、蒸馏）和投机解码连成一条 3x 加速的工程路径并直接开源；Berkeley BAIR 的 Adaptive Parallel Reasoning 综述则把 ThreadWeaver、Multiverse、Skeleton-of-Thought 等并行推理控制方法系统化——这些都是把 reasoning 的 10x output token 折叠回更小有效计算的尝试。

两个看似偏门的工作把这个版图补完。Meta FAIR 的 Compute Optimal Tokenization 在 988 个 BLT 模型上得到一个反 Kaplan/Hoffmann 的结论：compute-optimal 配置下，模型参数量与数据 byte 数成正比、而非 token 数；最优压缩率随 compute 减小、并不等于 BPE 默认值。当 token 本身的"长度单位"都不再固定，单位 FLOPS 的语义也在松动，这进一步把瓶颈从"算多少"推向"算什么、搬什么"。ServiceNow 的 vLLM V0→V1 RL 训练正确性踩坑则提醒整个生态：当推理引擎承担越来越多在线训练（rollout）职责时，logprob 语义、in-flight 权重更新路径、fp32 lm_head 精度这些过去无人关心的细节，会直接决定 RL 训练能否复现——推理引擎正在从"serving 工具"长成"训练-推理共生系统"的一极。

把本周的散点连起来：经济学（Jevons + 100x 账单）→ 工作负载特征（98.7% KV 复用、157 轮 agent）→ 内存层级（HBM/DRAM/SSD/HDD 四级）→ 网络协议（MRC）→ 推理引擎（Mooncake/ROSE/TokenSpeed/vLLM-Omni）→ 算法（TwELL/ZeRO-Prefill/EVICT/MTP/APR）→ Tokenization（BLT 重写 scaling 律），是一条完整的、自洽的产业重构路径。未来 2-3 个季度的真实赢家，不会是"FLOPS 最大的芯片"，而是能把"agentic 长 session 状态"在 HBM/DRAM/NAND/网络间最便宜地搬运的那套系统——这也是为什么 NAND/HBM 的资本市场 re-rating 与开源推理引擎的发布节奏，本周第一次在同一时段对齐。下一个值得盯紧的信号，是分布式 KV cache 池从框架特性升级为 SLA 标的，以及 reasoning/agent 应用是否开始按"cache 命中率"而非"token 数"计价。

Agent 记忆系统：从无状态拼接走向跨任务累积学习

本周多篇论文与开源项目同时攻击同一痛点：今天的 Agent 每次任务都从零开始，没有跨 session 的累积。HKUST 的 XSKILL 用"技能 + 经验"双记忆把硬基准的提升推到最高 11.13 个百分点，更引人注意的是 Gemini 学到的知识可零额外训练直接迁移到 GPT-5-mini 和 o4-mini——agent 的记忆开始具备跨模型 portable 的属性。

研究侧的范式转变同样明显。Sauron Labs 的 True Memory 提出"Storage Is Not Memory"——主张把架构重心从"存储 schema"切换到"多阶段检索流水线，事件原文保留"，整个系统只跑在一个 SQLite 文件、CPU 上无 GPU，却在 LoCoMo 上拿到 93.0% 准确率，远高于 Mem0（61.4%）和 Supermemory（65.4%）。MemTensor 的 MemReranker 走另一条互补路径：把 Qwen3-Reranker 通过多教师蒸馏 + InfoNCE 训成针对 agent memory 的小型 reranker（0.6B/4B），在 memory 检索 benchmark 上匹配 GPT-4o-mini，4B 版本达到 0.737 MAP，延迟仅大模型的 10-20%。Voltropy 的 LCM (Lossless Context Management) 则把 Recursive Language Models 的思路工程化——用层次化 summary DAG 自动压缩历史消息但保留无损指针，配合 LLM-Map 把递归改写成 engine-managed 并行原语，最终在 OOLONG eval 32K-1M tokens 全段击败 Claude Code。

工程侧 CocoIndex 把"增量同步"作为 agent 上下文管道的一等公民，只处理变更部分，5 分钟搭起一条生产级 pipeline，直接对标传统批处理 RAG 的数据陈旧问题。基准侧，Continual Learning Bench 1.0 第一次为"在线学习场景"提供专家校验任务集，把 10+ 前沿系统对齐到同一标尺。最后是一个落地的提醒：svpino 的实测表明在大语料、模糊查询、并发写入场景下数据库仍然胜过纯文件 agent 记忆——文件系统是好接口但不是 production 答案。本周这组工作合在一起，意味着 agent memory 终于走出"prompt 历史 + 向量 + 总结"的旧三件套，开始把检索、压缩、累积、迁移看成一个完整的工程系统。

AI 做科研：从协作数学家到独立漏洞挖掘

本周三个具体案例把 AI 从"加速研究"推到"独立产出研究成果"的边界。最戏剧性的是 DeepMind AI co-mathematician：仅靠 Gemini 3.1 Pro 单模型在 FrontierMath Tier 4（专业数学家需要数周的研究级问题）只能拿 19%，加上 agentic scaffolding——并行 agent 互相 review、写代码、查文献——分数跳到 48%，并且配合 Marc Lackenby 解开了 Kourovka 笔记本的一道开放问题。值得对照的是它也明确披露了"绕开标准评测 harness、48 小时每题、无 token 限制"的方法论，因此这个 48% 不能直接和其他模型 leaderboard 比较——但论文真正的价值不在分数，而在于 reviewer-pleasing bias、death spiral 这些被首次系统命名的失败模式。

另一头是 OpenAI 物理学家 Alex Lupsasca 在 Latent Space 播客演示的"Vibe Physics"：GPT-5 在 11 分钟内复现了他自己一篇训练截止后才发表的论文，并帮他导师解开了困扰一年多的物理问题。Lupsasca 用"AI 锯齿前沿"形容这种状态——AI 在科学前沿的进步远超日常任务。Mozilla 的 Firefox + Claude Mythos 则给出了产业版本：每月修复漏洞数从约 20-30 跃到 423，发现 15-20 年的历史 bug，AI 安全报告完成"垃圾报告 → 高价值"的口碑反转。

把这些案例与本周的两份"宏观判断"并读会更立体。Jack Clark 在 Twitter 公开预测递归自我改进有 60% 概率在 2028 年底前发生，Import AI 455 同步用 SWE-Bench/METR/GPQA 数据集论证 2028 年前 60%+ 概率出现无人类参与的 AI R&D。两篇文章不是凭空预测，而是把本周这些"AI 解物理/数学/安全问题"的具体案例当作论据。同周可执行的工程方向也清晰浮现：Sakana 的 7B Conductor 模型用 RL 把"协调其他 LLM"训成一种独立能力，在 GPQA-Diamond 和 LiveCodeBench 上达到 SOTA，用编排带来的提升相当于一代模型升级；Sentient 的 EvoSkill V1 则展示了同样思路在 coding agent 上的版本——失败轨迹反馈到新 prompt/skill，OfficeQA 60.6% → 68.1%、SealQA 26.6% → 38.7%。HKUST/CUHK/Tencent AI Lab 的 SciResearcher 和 Microsoft Research 的 Agentic-imodels 则从数据合成与可解释性两侧补完这条 agent 工程化路径。这条线的潜台词是：AI 当研究员所需要的，已不只是更聪明的模型，而是"评估、协调、记忆、自动改进"四件事一齐到位的 agentic 工程。

语音 AI 进入推理 Agent 时代

OpenAI 同日推出三个新实时语音模型：GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper，把 GPT-5 级推理能力下放到语音管线。最重要的能力跃迁不是音质，而是 GPT-Realtime-2 引入了可调节的"推理努力度"（minimal 到 xhigh）、并行工具调用、128K 上下文和更自然的中断恢复——OpenAI 官方推直接定位它为"voice agent 的实时合作者"。配套的 Translate 覆盖 70+ 输入语言到 13 个输出语言流式翻译，Whisper 提供流式转录与字幕，整套 API 同步公开，配合 OpenAI Blog 的开发者接入文档，意味着语音 AI 第一次可以像文本 agent 那样"边说边推理边调工具"。

落地侧两个例子值得对照。Runway 实时视频 Agent 把单张图片变 24fps 高清对话视频、端到端延迟 1.75 秒——这把语音 agent 的"嘴"补上了。Parloa 的客服 case 则展示了 OpenAI 模型在企业级语音客服的设计-模拟-部署链路，强调它解决了传统客服系统在"复杂客户意图理解"和"对话连贯性"上的痛点。以前的语音 SDK 把 STT、LLM、TTS 三件事拼成 pipeline，而本周这一拨发布把它们折叠成可推理、可工具调用的单一实时 agent——下一年值得盯的指标，是有多少呼叫中心、车载 OS、可穿戴设备 OEM 把这种 agent 模式写进 SLA。

企业 Agent 商业化新阶段：支付、电商、桌面控制全线落地

Agent 本周从"生成内容"集中跨入"完成交易和操作系统级动作"。最具范式意义的是 AWS Bedrock AgentCore Payments 的预览版——这是首个面向自主 Agent 的托管端到端支付能力，与 Coinbase 和 Stripe 合作支持 x402 协议，让 Agent 能在推理循环中动态访问付费 API、MCP 服务器和网页内容，无需开发者手动配置每个计费关系。这把"Agent 经济"从设想推进到具体基础设施层面。

桌面与浏览器层面同样补齐。AWS AgentCore Browser 推出 OS Level Actions 让 agent 通过 InvokeBrowser API 执行系统级鼠标/键盘/截图，突破了 Playwright/CDP 只能操作 DOM 的局限——OS 原生对话框、安全提示、右键菜单都能进入 agent 的截图-推理-操作循环。NVIDIA × ServiceNow 的 Project Arc 是同一思路的企业级桌面版本：长期运行、自我进化的桌面 Agent 接管本地文件系统、终端和应用，用 NVIDIA OpenShell 安全运行时配合 ServiceNow Action Fabric，并强调 Blackwell 平台让每瓦 token 输出提升 50 倍、成本降 35 倍。配合 AWS AgentCore Optimization 质量循环提供基于生产 trace 的优化推荐 + 批量评估 + A/B 测试，整个 AWS Agent 栈第一次把"上线 → 监控 → 优化"做成闭环。

垂直行业侧，Shopify 为 Hermes Agent 推出官方 Skill 让 agent 自主管理产品/库存/订单/履约——电商运营第一次有了开箱即用的 agent 接入。最具说服力的是 Andrew Wilkinson 用 Claude Code 运营 40+ 企业的实战：Deep Personality SaaS 单产品 $20K 收入零员工，agent 接管 support/marketing/dev，关键的 marketing agent 直接对接 PostHog、管理 Meta/Reddit 投放并跑多变量测试。把这些案例叠在一起看，企业 Agent 从概念走到 ARR 的速度本周明显提了一档——支付、桌面、电商三个最难自动化的环节同时给出了官方落地方案。

📌 本周简讯

GPT-5.5 Instant 与 GPT-5.5-Cyber 同周登场——OpenAI 把 GPT-5.5 Instant 滚动为 ChatGPT 默认模型，强调更简洁、更准确、更个性化；同步发布的 GPT-5.5-Cyber 面向已验证的网络安全防御者提供"可信访问"，两者一同把 GPT-5.5 系列的产品矩阵补完。Satya Nadella 当天宣布该模型已接入 M365 Copilot 与 Foundry。

ARC-AGI-3 重置 AGI 评分板——François Chollet 发布 ARC-AGI-3：135 个全新游戏环境、无指令、无规则。未训练的人类全部 100% 通过，所有前沿模型（Gemini 3.1 Pro、GPT-5.4、Opus 4.6、Grok-4.20）得分均低于 1%。Kaggle 提供 200 万美元奖金，所有获奖方案需开源——给"scaling 不能闭合 AGI 差距"的论点加了一记硬指标。

Allen AI 推出 EMO MoE 模型——EMO 用端到端预训练让模块化结构从数据中自然涌现，14B 总参数 / 1B 激活，仅使用 12.5% 专家（16/128）即可在特定任务上保持接近全模型性能。专家形成代码、数学、生物等高层语义集群，而非低层词汇模式——给了 MoE 路由"为什么有效"一个新的可解释性视角。

Albert Gu 发布 Raven 序列模型——Raven 桥接 SSM 与 sliding window attention：state 是有限 slot 集合（像 SWA），但学习选择性地决定哪些 slot 用新 token 更新，检索能力远强于此前的线性模型。Gu 认为这是 SWA 的严格更优替代品，也为"如何把 SSM 与 attention 各自的优点合一"提供了新框架。

Stratechery 财报周与 AI 商业化对照——Stratechery 在 Amazon's Durability 把 ASCS 物流业务与 AWS 演进对照 AI 基础设施，本周还连发 Microsoft/Apple 财报、Google/Meta 财报的对比分析，提出 Google 的 AI 收益可能部分来自 Anthropic 投资这种反直觉判断——是理解本周 AI 算力账单与各家财报反应的最佳一篇视角。