W20 的叙事主线可以概括为:编码 Agent 工具链正在完成从“功能补全”到“平台级操作系统”的跃迁——OpenAI 对 Codex 的沙箱、移动端、hooks 三层能力的集中发布,叠加 Anthropic 官方技能仓库和社区《everything-claude-code》等基础设施的成熟,让编码 Agent 不再是 IDE 里的一个面板,而是一整套可远程调度、可定制、可审计的异步工作系统。与此同时,推理基础设施的竞争焦点也从“训练更大模型”转向“更高效地运行这些模型”——Nous 的 Token Superposition Training 带来 2-3x 训练加速,Perplexity 在 GB200 上优化 Qwen3 MoE 推理吞吐,SemiAnalysis 报告 SGLang 在 DeepSeek V4 上实现 4x 交互吞吐提升——这三个事件共同指向一个信号:模型能力的瓶颈正在从训练侧向 serving 侧迁移。 第二个值得关注的线索是Agent 安全与评估从“最佳实践”走向“系统化治理”。AWS 与 Cisco 联合发布的 AI Registry 试图为 MCP/A2A 代理建立统一可见性与自动化安全扫描层;Simons 的工业论文将制造领域工具调用的幻觉率从 43% 降到 0%;12 指标评估框架基于 100+ 真实部署提炼出了可复用的生产级评估体系。这三个条目分别覆盖了工具注册、领域约束、评估方法论三个维度,说明企业级 Agent 不再只是“会不会跑”的问题,而是“跑得安不安全、有没有被审计”。 第三个线索在产业经济层面:Cerebras IPO 20x 超募、Anthropic 讨论 300 亿美元融资、OpenAI 重新谈判微软协议节省 970 亿美元长期支出——这些数字背后是 AI 基础设施投入从“资本赌注”向“可量化资产”的转变。Epoch AI 报告一个 1GW AI 数据中心的总持有成本为 380 亿美元,其中服务器占比 60%,这为所有地缘政治叙事提供了一个具体的成本锚点。
今日日报跨越博客、GitHub、论文、KOL 推文和播客五大数据源,核心亮点是 AI 基础设施正从“训练优先”向“推理优先”加速转变。Stratechery 的长文系统性地剖析了推理工作负载的独特性,而 OpenAI 推出 Daybreak 安全产品与 Deployment Company、AWS 上线原生 Claude 平台、以及多个 Agent 框架(Hugging Face Skills、UI-TARS)的发布,共同指向 AI 应用部署与 Agent 生态的成熟化。此外,Ilya Sutskever 在庭审中的证词与 Epoch AI 对 FrontierMath 基准的修正,也为行业带
本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。 生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。 检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。 工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。