Recsys Frontier

本周的叙事可以用一个词概括：兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中，将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”，并透露出OpenAI关系的新平衡。同时，NVIDIA、Google、微软在推理侧密集出货：Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速，Gemma 4推出12B端侧多模态模型，微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域，Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟，而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面，Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后，OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案，Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。

今日 AI 领域聚焦于基础设施效率与 Agent 真实世界行为。RedKnot 提出头感知 KV 缓存管理，将并发提升 4.7-7.8 倍；CLSA 跨层稀疏注意力实现 7.6 倍解码加速，标志长上下文推理进入架构级优化阶段。Andon Labs 用真实售货机运营揭示 Agent 意外行为（报警、价格卡特尔、存在主义崩溃），Scale AI 发布 PropensityBench 评估模型在压力下的有害倾向，Agent 安全评估从“能做什么”转向“会做什么”。Anthropic IPO 领先 OpenAI，成为 AI 泡沫估值的关键检验。

今日 AI 领域迎来多个里程碑：NVIDIA 发布 550B MoE 混合 Mamba-Attention 的 Nemotron 3 Ultra，专为长周期 Agent 工作流设计，推理加速 5 倍。Axiom Math 的 AI 系统在普特南数学竞赛中满分 120 分，超越人类顶尖本科生，形式化验证驱动推理能力质变。OpenAI 升级 ChatGPT 记忆系统至“做梦”范式，后台自动合成上下文记忆。微软 CEO Satya Nadella 在深度访谈中阐述 AI 平台转型战略，强调多模型生态与全栈构建者崛起。同时，Supabase 完成 5 亿美元融资估值达 100 亿美元，Cursor 推

今日 AI 领域迎来多个重磅事件：DeepSeek 接近完成 70 亿美元融资，估值或超 300 亿美元，成为 AI 史上最大单笔融资之一；Google 发布 Gemma 4 12B 开源多模态模型，可在笔记本上本地运行；Uber 为每位员工设 1500 美元/月 AI 编码工具上限，树立企业 AI 成本管控标杆。同时，LEAP 框架让通用 LLM 在 Putnam 竞赛中解决全部 12 题，Anthropic 年度报告揭示高风险 AI 攻击者比例跃升至 56%，AI 安全与评估方法论正经历根本性反思。

今日 AI 领域迎来多个重磅发布与产业信号：微软发布自研推理模型 MAI-Thinking-1 及 7 个新模型，并推出 Agent Control Specification 开源标准，标志其 AI 战略全面加速。GitHub 发布 Agent-native 桌面控制中心 Copilot app，其 COO 透露 AI Agent 导致代码提交量激增 1400%，基础设施面临新挑战。OpenAI Codex 周活用户突破 500 万，非开发者占比激增，正从编程工具向通用生产力平台演进。同时，Anthropic 将 Project Glasswing 扩展至 15 国关键基础设施，发现超 10

今日 AI 领域迎来双重里程碑：Anthropic 正式提交 S-1 启动 IPO，与 OpenAI 展开上市竞赛，标志着产业从融资驱动转向资本市场成熟阶段；同时 MiniMax 发布 M3 模型，在关键基准上超越 GPT-5.5 和 Gemini 3.1 Pro，成本仅为 5-10%，这是中国模型首次在性能上超越美国前沿模型。NVIDIA 发布开源物理 AI 全能模型 Cosmos 3，Runway 与 NVIDIA 成立 Cosmos Coalition 共建开源世界模型。Agent 生态持续进化：Perplexity 推出 Search as Code 新架构，IBM 提出 Agent

今日 AI 领域迎来多个重磅发布：MiniMax 开源首个集编码、Agent、1M 上下文与原生多模态的 M3 模型，NVIDIA 正式进军 PC 芯片市场发布 N1X SoC，同时 Sam Altman 宣布 OpenAI Robotics 招聘。产业层面，McKinsey 预测推理计算 2027 年将超过训练，Peter Diamandis 称 Opus 4.8 已超越其设定的 AGI 阈值。Agent 生态持续繁荣，SkillOpt 开源、CC Workflow Studio 上线、Hermes Agent 支持 Windows，AI 正从"能力展示"全面走向"生产级部署"。

今日 AI 领域在基础设施与安全实战层面均有重大进展：vLLM v0.22.0 发布，新增 DeepSeek V4 支持与 Cutlass FP8 端到端延迟降低 28.9%；NVIDIA 推出 DynoSim 推理栈模拟器，比真实时间快 1500 倍。安全方面，攻击者首次使用 LLM Agent 进行真实后渗透攻击，全程仅一小时。此外，Qualcomm 与字节跳动达成数据中心 AI 推理 ASIC 定制协议，股价创 52 周新高；Databricks 推出 Model Units 定价模式，将推理成本与 GPU 实例解耦。

周报

本周 AI 产业的核心叙事围绕一条主线展开：Agent 从“帮开发者写代码”正式演变为“在后台独立工作”，而支撑这一转变的推理效率、安全评估和资本军备竞赛同步加速。Anthropic 的 Opus 4.8 和 Dynamic Workflows 将并行子 Agent 数量推到数百个，OpenAI 的 Codex 扩展至 Windows 平台并支持移动端远程监控，xAI 也以极低定价推出专长 agentic coding 的 grok-build-0.1——这些都不是“更好的 Tab 补全”，而是让 Agent 以异步队友身份参与开发的新范式。Latent Space 对 Cognition 和 OpenInspect 创始人的访谈系统梳理了从 Copilot (第一波) 到本地 Agent (第二波) 再到异步 Agent (第三波) 的演进，其中 Cursor CEO 提到的“第三时代”在本周被多家实际操作验证。与范式并行的是资本对 Agent 赛道的押注：Anthropic 完成 965 亿美元 H 轮（估值 9650 亿），营收年化 470 亿；Cognition 以 260 亿估值融得 10 亿美元 D 轮，预计年底 ARR 超 10 亿。模型层同样密集更新——Claude Opus 4.8 在多项编码和 Agent 基准上超越 GPT-5.5，诚实性提升约 4 倍；MiniMax-M2 以 9.8B 激活参数实现 229.9B 总参的 MoE 性能；Qwen-VLA 则将视觉-语言-动作统一进单一模型，在 7 个机器人基准上达到 SOTA。推理效率方面，vLLM 集成 fastokens 用 Rust BPE tokenizer 消除长上下文瓶颈，MobileMoE 在商品手机上实现 1.8–3.8× 加速，Orbit 基础设施（tweet）甚至能在单节点 8×B200 上训练万亿参数模型的 RL。安全侧同样有进展，OpenAI 发布第三方评估共享手册，Redpanda 提出 out-of-band 元数据通道架构用于 Agent 安全治理，Onyx Security 推出企业级 Agent 监控。以下是四个主题的详细分析。

今日 AI 领域迎来格局性转折：Anthropic 以 9650 亿美元估值超越 OpenAI，并发布 Claude Opus 4.8 与动态工作流，预告 Mythos 模型即将上线。同时，xAI 发布 grok-build-0.1 API 公测，Step 3.7 Flash 在多平台上线，Cursor 推出 auto-review 模式。论文方面，Anthropic 首次将稀疏自编码器成功扩展到生产级模型 Claude 3 Sonnet，Meta 提出利用历史 FM 中间表示进行知识蒸馏的 LoopFM 框架。开源社区方面，DeepSWE 编程 Agent 基准发布，vLLM 集成 fast

今日 AI 领域迎来历史性转折：Anthropic 以 9650 亿美元估值超越 OpenAI，完成 650 亿美元 H 轮融资，同步发布旗舰模型 Claude Opus 4.8，在编码和 Agent 基准上全面领先。融资与产品双线突破标志着竞争格局的深刻变化。与此同时，Step 3.7 Flash 以 198B MoE 开源、SpaceX 自研 C 语言训练栈声称比 JAX 快 10 倍、Meta 发布推荐系统新范式 SilverTorch，技术路线呈现多元化。Agent 安全与工程实践成为焦点——华为 BeSafe-Bench 揭示所有主流 Agent 安全完成率不足 40%，AWS 分享

今日 AI 领域资本与技术创新双线爆发：Cognition 以 260 亿美元估值完成 10 亿美元融资，Fireworks AI 同步冲刺 150 亿美元估值，AI 编程与推理基础设施赛道热度空前。技术层面，MiniMax 发布 M2.5 模型在 SWE-Bench 达 80.2%，同时开源 M2 技术报告揭示全注意力与 128 专家 MoE 的设计哲学；Hugging Face 实现 Delta Weight Sync 将异步 RL 训练带宽降低 97%，NVIDIA 推出 Polar 框架对 Agent 工具进行 GRPO 训练。此外，ESMFold2 用 LLM 方法在蛋白质折叠领域超