本周推荐系统研究围绕三条技术主线展开。第一条是 Semantic ID 驱动的生成式检索持续升温——Spotify 同时放出两篇论文,一篇将 SID 系统部署上线并跑通 A/B test(新节目发现率 +14.3%),另一篇将 SID 作为独立模态统一搜索、推荐和推理,工业界 SID 系统正从"能不能用"进入"怎么用得更好"的阶段。第二条是多模态检索与表示压缩:Apple 交出统一文本/图像/视频的生产级检索架构,Aalto University 将 2B 参数的 VLM 蒸馏为 69M 的文本编码器(延迟降低 50 倍),POSTECH 发现并修复了 VLM embedder 做推荐时的模态崩溃问题。 第三条是工业级精排的信息流控制。阿里巴巴和 Meta 的三篇论文从不同角度切入同一命题——不再无差别地喂入所有特征和信号,而是控制特征参与交互的时机(延迟掩码)、筛选值得精细交互的行为(核心行为选择)、标准化行为信号的分布语义(条件去偏)。Meta 的 MBD 框架尤其值得关注,已部署在两个十亿级用户的短视频平台上,将观看时长与视频时长的相关性从 0.514 压到 0.003。
如果要用一个词概括 2026-W12 的 AI 领域,那就是"基础设施"——不是模型本身,而是让模型在真实世界中运转起来的一切。Simon Willison 将过去一年间散落的 Agent 工程经验凝结为一套完整的模式指南,Stratechery 宣称 Agent 是大语言模型的第三个范式转折点,OpenAI 十天内连续收购 Promptfoo 和 Astral 补齐编码 Agent 的环境管理短板,Stripe 推出机器支付协议 MPP 让 Agent 可以自主花钱——整个行业正在从"Agent 能做什么"快速切换到"Agent 如何在生产环境中可靠、安全、经济地运行"。 模型层面同样以"适配 Agent"为主旋律。OpenAI 的 GPT-5.4 mini/nano 不是旗舰的缩小版,而是从一开始就按"被调用"来设计的子代理模型;MiniMax M2.7 以 GLM-5 三分之一的成本达到同等性能;Mamba-3 从 SSM 架构层面为高并发 Agent 场景铺设基础。竞争维度正从"谁最聪明"转向"谁最适合被编排"。 与此同时,Meta 的 Ranking Engineer Agent 交出了模型准确率翻倍的成绩单,但同一周 Meta 也遭遇了 Sev 1 级别的 Agent 数据泄露事件。ServiceNow 的企业级 Agent 基准显示,当前最强模型在仿真企业环境中的成功率仅 37.4%。产出与风险并存,这正是 Agentic Engineering 当前最真实的写照。