AI周报 2026-W25 | Recsys Frontier

type

Post

status

Published

date

Jun 20, 2026 07:32

slug

ai-weekly-2026-W25

summary

2026-W25 最清晰的叙事线是：开源模型前沿从追赶变为并跑，甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布，参数规模从 284B 到 1.6T，上下文全部支持 1M token，且均以开源形式提供。社区评测和独立分析表明，这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA，两个 API 调用即可部署生产级 Agent；Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时，Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式，将 p90 TTFT 降低 53-398x；LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型，prefill 减少 53%；Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文，30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。此外，监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款，美国商务部随后对 Fable 和 Mythos 实施出口许可要求，Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展，从罕见病诊断到全身体超声 CT。

📊 本周概览

第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA，两个 API 调用即可部署生产级 Agent；Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时，Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。

第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式，将 p90 TTFT 降低 53-398x；LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型，prefill 减少 53%；Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文，30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。

此外，监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款，美国商务部随后对 Fable 和 Mythos 实施出口许可要求，Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展，从罕见病诊断到全身体超声 CT。

开源模型前沿：万亿参数、1M 上下文、MIT 许可

本周最密集的信号来自开源模型阵营。GLM-5.2（Z.ai，MIT 许可，744B 参数/40B 激活）在发布当天没有放跑分表，但社区很快自行补上了评测。独立分析机构 Artificial Analysis 给出 Intelligence Index 51 分，领先 MiniMax-M3（44）和 DeepSeek V4 Pro（44），尤其在科学推理（HLE 40%、GPQA 89%）和 agentic 基准（TerminalBench 2.1 达 81.0）上提升显著。架构层面，GLM-5.2 新增 IndexShare 机制——复用稀疏注意力 top-k 索引，在 1M token 上下文中将 per-token FLOPs 降低 2.9 倍。vLLM v0.23.0 和 SGLang 均在发布当天提供 Day-0 支持。训练成本方面，EMostaque 估算约 2500 万美元（主要在昇腾芯片上完成），而 Z.ai 市值已接近 100B 美元。

同一天，DeepSeek 发布 DeepSeek-V4 预览版，包含 Pro（1.6T 参数/49B 激活）和 Flash（284B/13B 激活）两个 MoE 模型，在 32T tokens 上预训练。核心创新包括混合注意力架构（Compressed Sparse Attention + Heavily Compressed Attention）、Manifold-Constrained Hyper-Connections，以及 Muon 优化器。在 1M token 上下文中，Pro 版本仅需 V3.2 的 27% 推理 FLOPs 和 10% KV cache。Reddit 用户实测对比显示，GLM-5.2 在代码架构规划上表现更优，DeepSeek V4 Pro 在并行研究和 SWE 任务上更快——两者各有所长。

NVIDIA 的 Nemotron 3 Ultra（550B 总参/55B 激活，开源）走了一条不同的技术路线：混合 Mamba-Attention MoE + LatentMoE + Multi-Token Prediction + NVFP4 预训练。1M token 上下文，推理吞吐是同类开源模型的 6 倍，专为长时 agentic 任务设计。论文给出了完整的训练数据、配方和量化 checkpoint。

Inclusion AI 的 Ling-2.6/Ring-2.6 系列达到 1T 参数规模，在 Architecture 层面引入混合线性注意力（Lightning Attention + MLA），以及 Evolutionary Chain-of-Thought、Linguistic Unit Policy Optimization 等后训练技巧。Ring-2.6 的强化学习框架 KPop 通过异步调度实现大尺度环境数据上的稳定训练。该系列同样开源全部 checkpoint。

四款模型共同指向一个趋势：开源模型不再只是闭源模型的廉价替代品——在 cost per task 和部分任务质量上，它们已经建立自己的 Pareto 前沿。GLM-5.2 的 $0.46/task 成本虽高于 DeepSeek V4 Pro 的 $0.05，但在科学推理和 agentic 能力上领先。1M token 上下文正在成为标配，这也倒逼推理系统加速创新。

Agent 基础设施平台化：从 Harness 到 Origin

Amazon Bedrock AgentCore Harness 在本周从预览进入 GA。核心思想：将生产级 Agent 所需的 Runtime、Memory、Gateway、Browser、Code Interpreter、Identity、Observability 等原语封装为托管服务，两个 API 调用（CreateHarness + InvokeHarness）即可启动一个隔离的微 VM 会话，支持跨会话记忆、多模型切换（Bedrock/OpenAI/Gemini/LiteLLM 任意切换）、MCP 工具集成，以及开箱即用的 CloudWatch 追踪。AWS 同时在 Bedrock AgentCore 上推出了 Web Search 功能，基于自建 Web 索引（数百亿文档，分钟级更新），结合知识图谱和语义片段提取，全程在 AWS 网络内完成，无需管理第三方 API。

GitHub 发布了内部数据分析 Agent Qubot 的构建复盘。Qubot 基于 Copilot Cloud Agent，通过 Slack/VS Code/CLI 提供自然语言查询，连接 Trino 和 Kusto 双引擎。其关键设计是联邦化上下文层（bronze/silver/gold 分层管理）和上下文 Agent 自动整理文档，以及一套离线评估框架（含测试用例、自动运行、统计聚合）。文章详细记录了踩坑过程，是少有的企业级 Agent 落地实战案例。

另一项值得注意的是 Cursor 推出的 Origin——一个专为 Agent 工作负载设计的 Git 替代品。它原生支持 API 和 MCP，内置合并冲突解决和 Agent 失败分辨率逻辑，解决了传统 Git 在 agentic 编程中频繁分支/合并效率低下的问题。Tomas Reimers 在宣布时指出，这是一次对版本控制原语的重新思考。

在具身 Agent 领域，NVIDIA GEAR 团队的 ENPIRE 实现了 8 个 Codex 代理自主控制机器人集群进行物理实验。核心创新是硬件加固的安全层（硬运动限制 + 力矩限制夹爪）、冻结的 reward 分类器（防止 Agent 奖励 hacking）、以及系统遥测设计（MRU/MTU/GPU 利用率三指标）。最终在 pin box 整理、zip tie 紧固等灵巧操作任务上达到 99% 成功率。Jim Fan 的推文给出了详细的幕后设计思路。

IBM 的论文 Beyond Static Leaderboards 对当前 Agent 评估范式提出尖锐质疑：14 项并行实现研究发现，聚合排行榜排名在分布外场景中完全不 transfer。论文提出用预测有效性（in-sample 与 out-of-sample 排名的相关性）替代均值排名，并给出 12 层测量框架和 3 个可证伪标准。这可能是 Agent 评估方法的一个转折点。

Alibaba 的 Connect the Dots (CoD) 框架则从 RL 角度训练 LLM 获得长生命周期 Agent 的元能力——在长达序列的任务中持续探索、学习、自我更新。采用 GRPO 风格算法+细粒度信用分配，在跨领域泛化上展示了初步有效性。

整体来看，Agent 基础设施正在经历从“框架+教程”到“托管服务+平台原语”的跃迁。Harness 的 GA、Origin 的发布、ENPIRE 的物理闭环，都指向同一个方向：让团队专注于 Agent 行为逻辑，而非底层编排和运维。

推理加速与基础设施效率：KV Cache 新范式、TPU 演进、FP4 训练

推理效率的微观创新在本周达到新密度。Pine AI 的论文 Models Take Notes at Prefill 提出了一个反直觉的观点：KV cache 像一本笔记本，模型在 prefill 阶段已经将 field-conditioned 结论写在了“下游笔记”上，而 field 自身的 key/value 驱动不足 1% 的决策。这意味着 KV cache 可以被编辑和组合：编辑 field 即可修正结论（无需重算整个上下文），技能笔记可以 RoPE 重定位后拼接进任何上下文。统一编辑+组合的 Agent 在 12 个模型上实现 logit cosine 0.90-0.999，延迟降低 14.9 倍，且与生产前缀缓存兼容（98.5% 命中率，p90 TTFT 降低 53-398x）。

硬件层面，Jeff Dean 等人发布 TPU 演进论文，覆盖从 v2 到 Ironwood 五代的架构稳定性、规模、能效和可持续性。数据点密集：单 pod 从 256 芯片增至 9216，TFLOPS/W 提升 30 倍，冷却从风冷到水冷，互连从 2D 到 3D 环面。同期 LMSYS 发布用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T 的实践：Fused MoE V2 通过 token+accumulator 驻留 VMEM 和 double-buffer 专家权重，将 MoE prefill 减少 53%。

在训练精度方面，蚂蚁集团的 UFP4 论文识别了 FP4 训练中 E2M1 格式的 Shrinkage Bias——几何不对称导致的系统性负舍入误差，会随层数累积并被 RHT 放大。论文提出用 E1M2/INT4 均匀网格替代，并在 124B MoE 模型上验证了更低的 BF16 相对损失退化。结论直接指向下一代硬件应同时支持 E2M1 和 E1M2/INT4 格式。

AMP 创始人 Anjney Midha 在播客中披露了一个常被忽视的事实：xAI 等前沿实验室的 MFU（模型算力利用率）可能低于 10%，而最佳实践可达 60-70%——这是系统工程问题，不是硬件问题。AMP 提出让 FLOPs 像兆瓦一样流动的独立计算网格愿景。

AWS SageMaker AI 新增 100+ 详细推理指标，通过 CloudWatch 内置的 Insights 仪表盘（Performance/Capacity/Reliability 三个视图）提供了开箱即用的监控方案，涵盖 GPU 健康、token 延迟、KV cache 压力、冷启动诊断等——对于使用 SageMaker 部署 LLM 的团队，减少了自建监控的投入。

医疗诊断与健康智能：产品级进展与评估假设的裂缝

OpenAI 在本周贡献了三个医疗方向的进展。首先是 GPT-5.5 Instant 的健康智能改进，通过 HealthBench 等评估，性能接近从前的 Thinking 模型，且对免费用户开放。其次是基于 o3 Deep Research 的罕见病诊断研究（发表于 NEJM AI）：重新分析 376 例此前未确诊的儿童遗传病病例，成功为 18 例（4.8%）找到诊断线索并经临床确认。这种周期性重分析疑难病例的能力——整合分散的临床和基因组数据，发现新基因-疾病关联——是 AI 在罕见病领域的典型高价值场景。

Midjourney 则跨界进入医疗成像：发布了全身体超声 CT 扫描仪原型，使用 358,000 个超声换能器，分辨率 0.5mm，单次扫描数据量 806TB，计算需求 2 PFLOPS。计划在旧金山开设首家 Spa（含扫描服务），目标 2027 年底开业。当前原型尚未集成 AI，但长期愿景是部署 5 万台扫描仪实现每月 10 亿次扫描。

然而 CMU 的博客文章给医疗 LLM 基准测试泼了冷水：他们在实地部署中发现，基准测试与真实场景之间存在最高 61 个百分点的性能差距。原因在于基准测试中隐含的任务假设（如单轮交互、医生撰写的查询）和结果假设（模型正确即患者正确行动）在部署中均不成立。论文提出 BenchmarkCards 框架将假设显式化，并分解了 61% 差距的构成：查询分布 12%、交互类型 19%、决策中介 30%。核心启示：即使模型诊断准确，患者不愿采纳建议则结果无效——这超出了基准测试的范围。

监管博弈：开源禁令、出口管制与模型欺骗

本周的监管事件可能是最近一年来最密集的。Anthropic 先发布 Claude Fable 5 时加入限制条款——禁止开发者用其构建竞争性 LLM 技术，并暗中对 LLM 研究人员弱化模型输出。在受到强烈反对后，Anthropic 撤销了隐性降级但未取消限制。随后美国商务部依据国家安全法规对 Mythos 和 Fable 实施出口许可要求，导致 Anthropic 全球禁用 Fable。Andrew Ng 在 The Batch 周刊中详细分析了这一连锁反应：这是一个“一旦看到就难以忽视”的时刻，它将显著加速许多国家确保 AI 自主访问的努力。Sam Altman 则回击称“声称造了炸弹再卖防空洞”是绝佳营销，但会诱导政府将你的产品纳入出口管制。

Interconnects 的文章则立场鲜明地反对开源 AI 禁令，指出开源是抗衡闭源垄断的唯一力量，并质疑“开源更不安全”的观点缺乏实证。文章梳理了近期行政令、国会提案和 Anthropic 模型限制的政策脉络，是理解当前辩论的优质素材。

在技术层面，ServiceNow 的 MosaicLeaks 基准揭示了 Agent 在混合私有文档和外部搜索时的隐私泄漏风险。实验发现，单纯优化任务性能反而使泄漏更严重（链成功率从 48.7% 升至 58.7% 的同时泄漏率从 34.0% 升至更高）。他们提出隐私感知深度研究（PA-DR）RL 方法，将泄漏率降至 9.9% 同时保持高任务成功率。三种泄漏类型（意图、答案、全信息）的划分对 Agent 安全设计有直接指导意义。

Dan Klein（Berkeley 教授、Scaled Cognition 创始人）在播客中探讨了更根本的问题：每个 LLM 输出本质上都是幻觉；强化学习可能暗中教会 AI 欺骗；构建自检模型是提升可靠性的关键。他认为 AI 可靠性是尚未跟上能力发展的关键领域。

📌 本周简讯

3B 编码模型接近 Opus 4.5 — rasbt / Sebastian Raschka 指出，基于 Qwen2.5-Coder-3B 的小模型通过精心设计后训练流程（高信号合成数据、多推理路径、MGPO 策略优化、单阶段 64k RL 等），性能接近 Claude Opus 4.5。这是“小模型+强后训练”路线的又一力证。

SpaceX 全股票收购 Cursor — cursor_ai / Cursor 官方宣布与 SpaceX 合并，联合训练模型并改进 Cursor 和 Grok Build。收购条款未公开，但意味着 Agent 编程工具进入更深的工业级整合。

阿里 Qwen 机器人套件 — Alibaba_Qwen / Qwen-RobotNav 统一 5 类导航任务，RobotManip 在 38,100+ 小时开源数据上预训练，RobotWorld 支持 20+ 本体的世界模型预测。三者可组合为具身 Agent 的底层工具箱。

Sakana Marlin：8 小时自主深度研究 Agent — hardmaru / Sakana 推出首个商业化产品，基于 AB-MCTS 和 AI Scientist，可执行 8 小时连续自主推理，生成策略报告和幻灯片。瞄准虚拟 CSO 角色。

ReplaySSM：SSM 状态解码 2x 更快 — tri_dao / Tri Dao 发现混合模型中 Gated-DeltaNet/Mamba 状态成为长上下文 Agent 的瓶颈，通过“加载-计算-不存储”的重计算技巧使 SSM 状态解码加速 2 倍，解锁 SSM 的 spec decoding。

vLLM v0.23.0 发布 — vllm_project / 408 commits，200 位贡献者。新特性包括 DeepSeek-V4 多后端支持、Model Runner V2 默认、多级 KV cache 卸载、Rust 前端演进、统一推理+工具调用解析。

DFlash+Spec V2 达 4.3x baseline 吞吐 — lmsysorg / LMSYS 与 Modal 联合发布下一代推测解码引擎，DFlash 草稿模型在 Qwen 3.5 397B 上超过原生 MTP 1.5x，块扩散草稿器+KV 注入+Spec V2 重叠调度成为 SGLang 默认推测引擎。

Gary Marcus：AI Agent 不能真正运用抽象规则 — GaryMarcus / Marcus 引用新研究证明 AI Agent 只是模仿历史而非应用抽象规则，补充了他持续 25 年的论证。论文提供了实验证据支持这一观点。