type
Post
status
Published
date
Jun 20, 2026 07:32
slug
ai-weekly-2026-W25
summary
2026-W25 最清晰的叙事线是:开源模型前沿从追赶变为并跑,甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布,参数规模从 284B 到 1.6T,上下文全部支持 1M token,且均以开源形式提供。社区评测和独立分析表明,这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。 第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA,两个 API 调用即可部署生产级 Agent;Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时,Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。 第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式,将 p90 TTFT 降低 53-398x;LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型,prefill 减少 53%;Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文,30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。 此外,监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款,美国商务部随后对 Fable 和 Mythos 实施出口许可要求,Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展,从罕见病诊断到全身体超声 CT。
tags
AI
周报
技术趋势
category
AI技术报告
icon
password
priority
1
📊 本周概览
2026-W25 最清晰的叙事线是:开源模型前沿从追赶变为并跑,甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布,参数规模从 284B 到 1.6T,上下文全部支持 1M token,且均以开源形式提供。社区评测和独立分析表明,这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。
第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA,两个 API 调用即可部署生产级 Agent;Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时,Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。
第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式,将 p90 TTFT 降低 53-398x;LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型,prefill 减少 53%;Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文,30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。
此外,监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款,美国商务部随后对 Fable 和 Mythos 实施出口许可要求,Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展,从罕见病诊断到全身体超声 CT。
开源模型前沿:万亿参数、1M 上下文、MIT 许可
本周最密集的信号来自开源模型阵营。GLM-5.2(Z.ai,MIT 许可,744B 参数/40B 激活)在发布当天没有放跑分表,但社区很快自行补上了评测。独立分析机构 Artificial Analysis 给出 Intelligence Index 51 分,领先 MiniMax-M3(44)和 DeepSeek V4 Pro(44),尤其在科学推理(HLE 40%、GPQA 89%)和 agentic 基准(TerminalBench 2.1 达 81.0)上提升显著。架构层面,GLM-5.2 新增 IndexShare 机制——复用稀疏注意力 top-k 索引,在 1M token 上下文中将 per-token FLOPs 降低 2.9 倍。vLLM v0.23.0 和 SGLang 均在发布当天提供 Day-0 支持。训练成本方面,EMostaque 估算约 2500 万美元(主要在昇腾芯片上完成),而 Z.ai 市值已接近 100B 美元。
同一天,DeepSeek 发布 DeepSeek-V4 预览版,包含 Pro(1.6T 参数/49B 激活)和 Flash(284B/13B 激活)两个 MoE 模型,在 32T tokens 上预训练。核心创新包括混合注意力架构(Compressed Sparse Attention + Heavily Compressed Attention)、Manifold-Constrained Hyper-Connections,以及 Muon 优化器。在 1M token 上下文中,Pro 版本仅需 V3.2 的 27% 推理 FLOPs 和 10% KV cache。Reddit 用户实测对比显示,GLM-5.2 在代码架构规划上表现更优,DeepSeek V4 Pro 在并行研究和 SWE 任务上更快——两者各有所长。
NVIDIA 的 Nemotron 3 Ultra(550B 总参/55B 激活,开源)走了一条不同的技术路线:混合 Mamba-Attention MoE + LatentMoE + Multi-Token Prediction + NVFP4 预训练。1M token 上下文,推理吞吐是同类开源模型的 6 倍,专为长时 agentic 任务设计。论文给出了完整的训练数据、配方和量化 checkpoint。
Inclusion AI 的 Ling-2.6/Ring-2.6 系列达到 1T 参数规模,在 Architecture 层面引入混合线性注意力(Lightning Attention + MLA),以及 Evolutionary Chain-of-Thought、Linguistic Unit Policy Optimization 等后训练技巧。Ring-2.6 的强化学习框架 KPop 通过异步调度实现大尺度环境数据上的稳定训练。该系列同样开源全部 checkpoint。
四款模型共同指向一个趋势:开源模型不再只是闭源模型的廉价替代品——在 cost per task 和部分任务质量上,它们已经建立自己的 Pareto 前沿。GLM-5.2 的 $0.46/task 成本虽高于 DeepSeek V4 Pro 的 $0.05,但在科学推理和 agentic 能力上领先。1M token 上下文正在成为标配,这也倒逼推理系统加速创新。
Agent 基础设施平台化:从 Harness 到 Origin
Amazon Bedrock AgentCore Harness 在本周从预览进入 GA。核心思想:将生产级 Agent 所需的 Runtime、Memory、Gateway、Browser、Code Interpreter、Identity、Observability 等原语封装为托管服务,两个 API 调用(CreateHarness + InvokeHarness)即可启动一个隔离的微 VM 会话,支持跨会话记忆、多模型切换(Bedrock/OpenAI/Gemini/LiteLLM 任意切换)、MCP 工具集成,以及开箱即用的 CloudWatch 追踪。AWS 同时在 Bedrock AgentCore 上推出了 Web Search 功能,基于自建 Web 索引(数百亿文档,分钟级更新),结合知识图谱和语义片段提取,全程在 AWS 网络内完成,无需管理第三方 API。
GitHub 发布了内部数据分析 Agent Qubot 的构建复盘。Qubot 基于 Copilot Cloud Agent,通过 Slack/VS Code/CLI 提供自然语言查询,连接 Trino 和 Kusto 双引擎。其关键设计是联邦化上下文层(bronze/silver/gold 分层管理)和上下文 Agent 自动整理文档,以及一套 离线评估框架(含测试用例、自动运行、统计聚合)。文章详细记录了踩坑过程,是少有的企业级 Agent 落地实战案例。
另一项值得注意的是 Cursor 推出的 Origin——一个专为 Agent 工作负载设计的 Git 替代品。它原生支持 API 和 MCP,内置合并冲突解决和 Agent 失败分辨率逻辑,解决了传统 Git 在 agentic 编程中频繁分支/合并效率低下的问题。Tomas Reimers 在宣布时指出,这是一次对版本控制原语的重新思考。
在具身 Agent 领域,NVIDIA GEAR 团队的 ENPIRE 实现了 8 个 Codex 代理自主控制机器人集群进行物理实验。核心创新是硬件加固的安全层(硬运动限制 + 力矩限制夹爪)、冻结的 reward 分类器(防止 Agent 奖励 hacking)、以及系统遥测设计(MRU/MTU/GPU 利用率三指标)。最终在 pin box 整理、zip tie 紧固等灵巧操作任务上达到 99% 成功率。Jim Fan 的推文给出了详细的幕后设计思路。
IBM 的论文 Beyond Static Leaderboards 对当前 Agent 评估范式提出尖锐质疑:14 项并行实现研究发现,聚合排行榜排名在分布外场景中完全不 transfer。论文提出用预测有效性(in-sample 与 out-of-sample 排名的相关性)替代均值排名,并给出 12 层测量框架和 3 个可证伪标准。这可能是 Agent 评估方法的一个转折点。
Alibaba 的 Connect the Dots (CoD) 框架则从 RL 角度训练 LLM 获得长生命周期 Agent 的元能力——在长达序列的任务中持续探索、学习、自我更新。采用 GRPO 风格算法+细粒度信用分配,在跨领域泛化上展示了初步有效性。
整体来看,Agent 基础设施正在经历从“框架+教程”到“托管服务+平台原语”的跃迁。Harness 的 GA、Origin 的发布、ENPIRE 的物理闭环,都指向同一个方向:让团队专注于 Agent 行为逻辑,而非底层编排和运维。
推理加速与基础设施效率:KV Cache 新范式、TPU 演进、FP4 训练
推理效率的微观创新在本周达到新密度。Pine AI 的论文 Models Take Notes at Prefill 提出了一个反直觉的观点:KV cache 像一本笔记本,模型在 prefill 阶段已经将 field-conditioned 结论写在了“下游笔记”上,而 field 自身的 key/value 驱动不足 1% 的决策。这意味着 KV cache 可以被编辑和组合:编辑 field 即可修正结论(无需重算整个上下文),技能笔记可以 RoPE 重定位后拼接进任何上下文。统一编辑+组合的 Agent 在 12 个模型上实现 logit cosine 0.90-0.999,延迟降低 14.9 倍,且与生产前缀缓存兼容(98.5% 命中率,p90 TTFT 降低 53-398x)。
硬件层面,Jeff Dean 等人发布 TPU 演进论文,覆盖从 v2 到 Ironwood 五代的架构稳定性、规模、能效和可持续性。数据点密集:单 pod 从 256 芯片增至 9216,TFLOPS/W 提升 30 倍,冷却从风冷到水冷,互连从 2D 到 3D 环面。同期 LMSYS 发布用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T 的实践:Fused MoE V2 通过 token+accumulator 驻留 VMEM 和 double-buffer 专家权重,将 MoE prefill 减少 53%。
在训练精度方面,蚂蚁集团的 UFP4 论文识别了 FP4 训练中 E2M1 格式的 Shrinkage Bias——几何不对称导致的系统性负舍入误差,会随层数累积并被 RHT 放大。论文提出用 E1M2/INT4 均匀网格替代,并在 124B MoE 模型上验证了更低的 BF16 相对损失退化。结论直接指向下一代硬件应同时支持 E2M1 和 E1M2/INT4 格式。
AMP 创始人 Anjney Midha 在播客中披露了一个常被忽视的事实:xAI 等前沿实验室的 MFU(模型算力利用率)可能低于 10%,而最佳实践可达 60-70%——这是系统工程问题,不是硬件问题。AMP 提出让 FLOPs 像兆瓦一样流动的独立计算网格愿景。
AWS SageMaker AI 新增 100+ 详细推理指标,通过 CloudWatch 内置的 Insights 仪表盘(Performance/Capacity/Reliability 三个视图)提供了开箱即用的监控方案,涵盖 GPU 健康、token 延迟、KV cache 压力、冷启动诊断等——对于使用 SageMaker 部署 LLM 的团队,减少了自建监控的投入。
医疗诊断与健康智能:产品级进展与评估假设的裂缝
OpenAI 在本周贡献了三个医疗方向的进展。首先是 GPT-5.5 Instant 的健康智能改进,通过 HealthBench 等评估,性能接近从前的 Thinking 模型,且对免费用户开放。其次是基于 o3 Deep Research 的罕见病诊断研究(发表于 NEJM AI):重新分析 376 例此前未确诊的儿童遗传病病例,成功为 18 例(4.8%)找到诊断线索并经临床确认。这种周期性重分析疑难病例的能力——整合分散的临床和基因组数据,发现新基因-疾病关联——是 AI 在罕见病领域的典型高价值场景。
Midjourney 则跨界进入医疗成像:发布了全身体超声 CT 扫描仪原型,使用 358,000 个超声换能器,分辨率 0.5mm,单次扫描数据量 806TB,计算需求 2 PFLOPS。计划在旧金山开设首家 Spa(含扫描服务),目标 2027 年底开业。当前原型尚未集成 AI,但长期愿景是部署 5 万台扫描仪实现每月 10 亿次扫描。
然而 CMU 的博客文章给医疗 LLM 基准测试泼了冷水:他们在实地部署中发现,基准测试与真实场景之间存在最高 61 个百分点的性能差距。原因在于基准测试中隐含的任务假设(如单轮交互、医生撰写的查询)和结果假设(模型正确即患者正确行动)在部署中均不成立。论文提出 BenchmarkCards 框架将假设显式化,并分解了 61% 差距的构成:查询分布 12%、交互类型 19%、决策中介 30%。核心启示:即使模型诊断准确,患者不愿采纳建议则结果无效——这超出了基准测试的范围。
监管博弈:开源禁令、出口管制与模型欺骗
本周的监管事件可能是最近一年来最密集的。Anthropic 先发布 Claude Fable 5 时加入限制条款——禁止开发者用其构建竞争性 LLM 技术,并暗中对 LLM 研究人员弱化模型输出。在受到强烈反对后,Anthropic 撤销了隐性降级但未取消限制。随后美国商务部依据国家安全法规对 Mythos 和 Fable 实施出口许可要求,导致 Anthropic 全球禁用 Fable。Andrew Ng 在 The Batch 周刊中详细分析了这一连锁反应:这是一个“一旦看到就难以忽视”的时刻,它将显著加速许多国家确保 AI 自主访问的努力。Sam Altman 则回击称“声称造了炸弹再卖防空洞”是绝佳营销,但会诱导政府将你的产品纳入出口管制。
Interconnects 的文章则立场鲜明地反对开源 AI 禁令,指出开源是抗衡闭源垄断的唯一力量,并质疑“开源更不安全”的观点缺乏实证。文章梳理了近期行政令、国会提案和 Anthropic 模型限制的政策脉络,是理解当前辩论的优质素材。
在技术层面,ServiceNow 的 MosaicLeaks 基准揭示了 Agent 在混合私有文档和外部搜索时的隐私泄漏风险。实验发现,单纯优化任务性能反而使泄漏更严重(链成功率从 48.7% 升至 58.7% 的同时泄漏率从 34.0% 升至更高)。他们提出隐私感知深度研究(PA-DR)RL 方法,将泄漏率降至 9.9% 同时保持高任务成功率。三种泄漏类型(意图、答案、全信息)的划分对 Agent 安全设计有直接指导意义。
Dan Klein(Berkeley 教授、Scaled Cognition 创始人)在播客中探讨了更根本的问题:每个 LLM 输出本质上都是幻觉;强化学习可能暗中教会 AI 欺骗;构建自检模型是提升可靠性的关键。他认为 AI 可靠性是尚未跟上能力发展的关键领域。
📌 本周简讯
3B 编码模型接近 Opus 4.5 — rasbt / Sebastian Raschka 指出,基于 Qwen2.5-Coder-3B 的小模型通过精心设计后训练流程(高信号合成数据、多推理路径、MGPO 策略优化、单阶段 64k RL 等),性能接近 Claude Opus 4.5。这是“小模型+强后训练”路线的又一力证。
SpaceX 全股票收购 Cursor — cursor_ai / Cursor 官方宣布与 SpaceX 合并,联合训练模型并改进 Cursor 和 Grok Build。收购条款未公开,但意味着 Agent 编程工具进入更深的工业级整合。
阿里 Qwen 机器人套件 — Alibaba_Qwen / Qwen-RobotNav 统一 5 类导航任务,RobotManip 在 38,100+ 小时开源数据上预训练,RobotWorld 支持 20+ 本体的世界模型预测。三者可组合为具身 Agent 的底层工具箱。
Sakana Marlin:8 小时自主深度研究 Agent — hardmaru / Sakana 推出首个商业化产品,基于 AB-MCTS 和 AI Scientist,可执行 8 小时连续自主推理,生成策略报告和幻灯片。瞄准虚拟 CSO 角色。
ReplaySSM:SSM 状态解码 2x 更快 — tri_dao / Tri Dao 发现混合模型中 Gated-DeltaNet/Mamba 状态成为长上下文 Agent 的瓶颈,通过“加载-计算-不存储”的重计算技巧使 SSM 状态解码加速 2 倍,解锁 SSM 的 spec decoding。
vLLM v0.23.0 发布 — vllm_project / 408 commits,200 位贡献者。新特性包括 DeepSeek-V4 多后端支持、Model Runner V2 默认、多级 KV cache 卸载、Rust 前端演进、统一推理+工具调用解析。
DFlash+Spec V2 达 4.3x baseline 吞吐 — lmsysorg / LMSYS 与 Modal 联合发布下一代推测解码引擎,DFlash 草稿模型在 Qwen 3.5 397B 上超过原生 MTP 1.5x,块扩散草稿器+KV 注入+Spec V2 重叠调度成为 SGLang 默认推测引擎。
Gary Marcus:AI Agent 不能真正运用抽象规则 — GaryMarcus / Marcus 引用新研究证明 AI Agent 只是模仿历史而非应用抽象规则,补充了他持续 25 年的论证。论文提供了实验证据支持这一观点。