本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming(夜间自我改进)和桌面 Claude Code,配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览,把 Agent 从"一次性脚本"完整推进到"持续运营单元"。 紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验,从同一周的不同角度证明:harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字,"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。 第三条线是基础设施。推理 token 价格一年降 100x,但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率,OpenAI 联合五家硬件厂商发布 MRC 网络协议,Perplexity 自研 ROSE 引擎,NVIDIA 开源 TokenSpeed,再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。
如果要为 2026 年第 18 周挑一句话作为总结,那是:模型差距在收敛,能力差距却在扩大,差距的来源已经从"prompt 怎么写"转移到"模型外那一层怎么搭"。Codex 一周之内完成从编码 Agent 到通用工作平台的跃迁、Karpathy 在 Sequoia Ascent 给 Software 3.0 提供哲学锚点、Lin et al. 用 AHE 论文给"harness engineering"正式命名,三件事在同一周共振;Anthropic 把 Claude Code 企业日均成本估算从 $6 翻倍到 $13、GitHub Copilot 切换到 usage-based 计费,则在定价端反向印证 harness 已经成为主要成本中心。 研究界并不甘只做产品的注脚——RecursiveMAS 把多 Agent 通讯从文本传递推到潜在空间递归,Berkeley GEPA 让 reflection LLM 读完整 rollout 重写 prompt 击败 GRPO 10 个百分点,Apple 与 Oracle 各自给多 Agent 系统装上可信度量,HiddenBench 在 ICML 2026 揭穿前沿模型在分布式任务上 70% 的失败率。同期,Latent Space、HuggingFace、Stratechery 三方信号汇聚成一条共识:训练算力之后,推理与评估正成为下一道结构性瓶颈,Meituan、NVIDIA、Salesforce、Amazon、Hippocratic AI、Meta 同周交出六篇推理优化论文,Anthropic 的成本翻倍则是给这场"inference inflection"贴上的价签。 OpenAI 与微软七年合作关系正式松绑,AWS Bedrock Managed Agents 同步登场,多云时代被合同条款写死;NVIDIA、OpenBMB、智谱、Oracle 在多模态 Agent 模型这条线一周齐发四枪;ZenBrain、AgentCore、ObjectGraph、Synthetic Computers 把 Agent 持久记忆问题摆上学术台面;Computer Use 借助 DeepSeek 的视觉接地、Browser Use Box 与 Cua 的沙箱基础设施,从 demo 走向工程化基础设施。这是一周里五条主线同时发声的少数时刻。
今日日报跨越了 X 推文动态和 GitHub 热门项目两大数据源,核心亮点在于 AI Agent 从“炒作”走向“务实落地”。一方面,多位 KOL 对 LLM Agent 的理性决策能力提出质疑,强调人类监督的必要性;另一方面,大量工具和最佳实践涌现,如 OpenAI Agents SDK 2.0、JP Morgan 的多 Agent 系统架构、以及 Anthropic 的零员工公司指南,标志着行业正在从概念验证转向工程化部署。此外,多个专为特定场景(如 n8n 工作流、DeepSeek 模型、iOS 开发)打造的 Agent 工具在 GitHub 上获得高星关注,显示出 Agent 生态的垂
今日日报跨越博客、GitHub 项目、论文、KOL 推文和播客,核心亮点是 Agent 从“单兵作战”走向“网络化协作”与“自主化运行” 的加速趋势。微软对多 Agent 网络的红队测试揭示了级联故障风险,Karpathy 则定义了 Software 3.0 时代的新范式,而 NVIDIA、OpenAI 和 DeepMind 分别从基础设施、工具和行业应用角度推动 Agent 落地。此外,安全与防御成为焦点,OpenAI 推出网络安全模型,Cursor 和 n8n 等工具也在强化 Agent 的安全审查与编排能力。 精选文章: 5 篇(5 分 2 篇,4 分 3 篇) GitHub 热门项目: