2026-W17 的叙事可以用一句话概括:模型之间的表现差距在缩小,但生态壁垒在迅速升高。GPT-5.5 和 DeepSeek V4 在同周发布,但两者的竞争已不只在 benchmark 分数——OpenAI 用 Codex 编织了一个从模型到代理框架到应用层的一体化网络,而 DeepSeek 则用开源权重 + 1/10 价格策略 + 华为 Ascend 兼容,继续施加结构性压力。 另两条线索值得注意:一是编码 Agent 工具层正在成型——Claude Code 的 bug 复盘、OpenClaude 的多模型替代、Context Mode 的上下文优化,标志着行业从“能跑就行”进入“跑得好、跑得省”阶段;二是Agent 评估与安全开始获得严肃关注,微软的 DELEGATE-52 基准显示前沿模型在长文档编辑场景下平均损坏 25% 内容,IBM 的 DIVERT 框架则探索了更高效的用户模拟评估方法——这些信号表明,Agent 落地已从“能不能做”转入“怎么信任”。
W16 把 AI 行业三条结构性主线第一次压到同一周。第一条是 Agent 交付形态——OpenAI 4 月 16 日让 Codex 桌面化(Mac Computer Use、90+ 插件、跨任务记忆),几乎与 Anthropic Opus 4.7 + /ultrareview 前后脚落地,"写代码的 AI"与"用电脑的 AI"合流到操作系统层。第二条是 Agent 记忆工程全面爆发:Microsoft MEMENTO 把推理中间态压缩成可寻址 memento,累计 6 万星的 claude-mem、1.6 万星的 cognee、1 万星的 omi 同时发力,Percy Liang 把 "Act II = personalized assistant with memory" 写进行业宣言。第三条是 RL 后训练系统的基础设施化——Rednote AI、Morgan Stanley、Shanghai AI Lab、Sakana AI、NVIDIA 同周抛出 Relax、AlphaLab、TREX、MARS²、AC/DC、Lightning OPD,把"怎么自动化地让 LLM 变强"抬升到多智能体协同科研堆栈。围绕这三条主线,还有 Agent 治理、软件工厂、本地推理、算力经济学四条支流各自显形;自动化能力继续沉淀为系统工程的同时,算力稀缺与治理复杂度也开始同步抬头。