本周 AI 产业的核心叙事围绕一条主线展开:Agent 从“帮开发者写代码”正式演变为“在后台独立工作”,而支撑这一转变的推理效率、安全评估和资本军备竞赛同步加速。Anthropic 的 Opus 4.8 和 Dynamic Workflows 将并行子 Agent 数量推到数百个,OpenAI 的 Codex 扩展至 Windows 平台并支持移动端远程监控,xAI 也以极低定价推出专长 agentic coding 的 grok-build-0.1——这些都不是“更好的 Tab 补全”,而是让 Agent 以异步队友身份参与开发的新范式。Latent Space 对 Cognition 和 OpenInspect 创始人的访谈系统梳理了从 Copilot (第一波) 到本地 Agent (第二波) 再到异步 Agent (第三波) 的演进,其中 Cursor CEO 提到的“第三时代”在本周被多家实际操作验证。 与范式并行的是资本对 Agent 赛道的押注:Anthropic 完成 965 亿美元 H 轮(估值 9650 亿),营收年化 470 亿;Cognition 以 260 亿估值融得 10 亿美元 D 轮,预计年底 ARR 超 10 亿。模型层同样密集更新——Claude Opus 4.8 在多项编码和 Agent 基准上超越 GPT-5.5,诚实性提升约 4 倍;MiniMax-M2 以 9.8B 激活参数实现 229.9B 总参的 MoE 性能;Qwen-VLA 则将视觉-语言-动作统一进单一模型,在 7 个机器人基准上达到 SOTA。推理效率方面,vLLM 集成 fastokens 用 Rust BPE tokenizer 消除长上下文瓶颈,MobileMoE 在商品手机上实现 1.8–3.8× 加速,Orbit 基础设施(tweet)甚至能在单节点 8×B200 上训练万亿参数模型的 RL。安全侧同样有进展,OpenAI 发布第三方评估共享手册,Redpanda 提出 out-of-band 元数据通道架构用于 Agent 安全治理,Onyx Security 推出企业级 Agent 监控。 以下是四个主题的详细分析。
本周推荐系统研究围绕三条技术主线展开。 工业级知识蒸馏进入迁移率量化时代: 字节跳动、Meta、微软、阿里分别展示了大规模蒸馏框架。字节的Rec-Distill(24B教师、20K序列)实现蒸馏迁移率>60%,阿里GPlan将LLM推理压缩为隐式token,Meta的LoopFM通过结构化中间表示让蒸馏迁移率翻倍,微软HARNESS-LM以190M参数恢复教师98%精度。四篇的共同指向是——蒸馏已经不只是模型压缩手段,而是把大模型能力“货币化”为可量化的业务指标。 生成式推荐从项目生成走向意图序列与条件生成: 阿里QGS在Quark搜索部署conditional next-item预测,Netflix揭示1B参数生成式推荐中不同任务的缩放天花板,清华SID碰撞分析发现Hit@10被高估103%。三篇共同说明——生成式推荐正在进入精细化评估和条件控制阶段。 推荐系统缩放从“堆参数”转向多维协同与测试时计算: Coupang系统研究CVR模型在骨干、嵌入、数据三个维度的可加缩放效应;阿里UTTSI首次将test-time compute引入CTR,无模型修改下CTR提升5.3%;Meta的rank-aware decomposition使DLRM吞吐量提升87.5%。缩放的核心矛盾已从“能不能大”变为“怎么用得巧”。
今日 AI 领域迎来格局性转折:Anthropic 以 9650 亿美元估值超越 OpenAI,并发布 Claude Opus 4.8 与动态工作流,预告 Mythos 模型即将上线。同时,xAI 发布 grok-build-0.1 API 公测,Step 3.7 Flash 在多平台上线,Cursor 推出 auto-review 模式。论文方面,Anthropic 首次将稀疏自编码器成功扩展到生产级模型 Claude 3 Sonnet,Meta 提出利用历史 FM 中间表示进行知识蒸馏的 LoopFM 框架。开源社区方面,DeepSWE 编程 Agent 基准发布,vLLM 集成 fast
今日 AI 领域迎来历史性转折:Anthropic 以 9650 亿美元估值超越 OpenAI,完成 650 亿美元 H 轮融资,同步发布旗舰模型 Claude Opus 4.8,在编码和 Agent 基准上全面领先。融资与产品双线突破标志着竞争格局的深刻变化。与此同时,Step 3.7 Flash 以 198B MoE 开源、SpaceX 自研 C 语言训练栈声称比 JAX 快 10 倍、Meta 发布推荐系统新范式 SilverTorch,技术路线呈现多元化。Agent 安全与工程实践成为焦点——华为 BeSafe-Bench 揭示所有主流 Agent 安全完成率不足 40%,AWS 分享
今日 AI 领域资本与技术创新双线爆发:Cognition 以 260 亿美元估值完成 10 亿美元融资,Fireworks AI 同步冲刺 150 亿美元估值,AI 编程与推理基础设施赛道热度空前。技术层面,MiniMax 发布 M2.5 模型在 SWE-Bench 达 80.2%,同时开源 M2 技术报告揭示全注意力与 128 专家 MoE 的设计哲学;Hugging Face 实现 Delta Weight Sync 将异步 RL 训练带宽降低 97%,NVIDIA 推出 Polar 框架对 Agent 工具进行 GRPO 训练。此外,ESMFold2 用 LLM 方法在蛋白质折叠领域超
今日 AI 领域迎来多个产业里程碑:Anthropic 年化收入被曝反超 OpenAI 至少 35%,AI 商业格局生变;推理基础设施诞生新独角兽,Fireworks 与 Baseten 估值双双破百亿,标志市场从“训练模型”转向“规模化推理”。同时,Figure 与 JCPenney 运营商签约大规模部署人形机器人,AWS 发布首个托管式 Agent 支付服务 AgentCore Payments,xAI 推出 Grok Build/Skills/Connectors 三件套正面竞争 Claude Code。学术方面,微软提出 ECHO 让终端 Agent 从环境反馈中免费学习世界模型,阿里