推荐周报 2026-W15

本周推荐系统研究的技术主线清晰:生成式推荐正在从"单场景验证"快速演进到"全链路生产系统"。美团、Snapchat、Meta 等头部平台的论文不再探讨 Semantic ID 的基本可行性,而是深入到多业务扩展、codebook 公平性、增量更新和重排序等部署后的实际痛点。MBGR (2604.02684) 在美团外卖多业务场景实现线上 CTR +1.24%,是本周评分最高的工作。 与此并行的另一条主线是 LLM/Agent 范式对推荐与检索的深度渗透。快手将 LLM 推理能力引入电商搜索并设计了去偏 GRPO 变体,Google DeepMind 用 RL 反馈环路对齐对话推荐中的检索器与生成器,Amazon 将非稳态分类重构为基于检索的时序预测。RL 正在成为 LLM 推荐系统的标准训练组件。 工业搜索检索层面,Google 和 Walmart 的三篇论文分别瞄准了非语义查询召回、广告搜索的语义-行为信号统一、以及大规模复购推荐的时序建模,全部带线上 A/B 验证。场景特化的工程-算法协同设计正在取代通用方法论。

AI周报 2026-W15

2026-W15(4 月 5-11 日),AI 工程领域完成了一次认知跃迁:围绕模型构建的编排基础设施——业界称之为"马具"(harness)——正式从幕后走向台前。OpenAI 公开了百万行零人工代码实验,Meta 用 50 多个 Agent 构建代码预计算引擎,Claude Code 源码泄露暴露了这套架构的精密程度。三件事指向同一个结论:2026 年的 AI 工程竞争已不在模型层面,而在模型周围的一切。 与此同时,Anthropic、AWS、Microsoft、Google 在同一周各自亮出完整的 Agent 基础设施方案,开源社区在 48 小时内给出替代品。推理效率、竞技编程和 Agent 记忆等方向也出现多点突破。

推荐周报 2026-W14

本周推荐系统研究围绕三条技术主线展开:生成式推荐的工程落地、Agent 驱动的系统自进化、以及排序模型的高效 scaling。 生成式推荐从"能跑"走向"跑得稳"。 阿里巴巴的 RCLRec 用反向课程学习解决转化信号的极端稀疏问题,线上广告收入 +2.09%;复旦的 DACT 提出 tokenizer 持续更新框架,应对数据分布漂移下的标识符失效。两篇论文的共同指向是——生成式推荐的瓶颈已经不在架构设计,而在工业环境下的持续运行。 阿里巴巴同期发布两篇 Agent 推荐系统论文——AutoModel 给工程蓝图,AgenticRS 给理论框架。 阿里巴巴系统性地探索了将 Agent 范式引入推荐系统全生命周期管理,agent 的角色从"模拟用户"转变为"替代工程师"。不过两篇论文目前都缺乏线上实验数据,能否跑通自动迭代闭环尚待验证。 排序模型的 scaling 竞赛继续加速。 快手的 UniMixer 将 attention、TokenMixer、FM 三类架构统一到一个参数化框架,在同等计算预算下 AUC 优于 RankMixer;Google 的零样本跨域知识蒸馏从 YouTube 迁移知识到 YouTube Music,线上 watch time +1.2%,为低流量场景提供了低成本能力迁移路径。

AI周报 2026-W13

2026 年第 13 周(3 月 22-28 日),AI 领域呈现出三条并行但相互关联的叙事线。第一条是多 Agent 编排工具的集中爆发——Cline Kanban、Scion、DeerFlow 2.0 等多个项目在同一周密集发布,标志着行业焦点从"单 Agent 能力"正式转向"多 Agent 协作的工程化"。第二条是基础模型在多个维度同时取得突破:上海 AI Lab 将科学模型推到万亿参数门槛(Intern-S1-Pro),LeCun 团队用 15M 参数解决了困扰世界模型多年的表征崩塌问题(LeWorldModel),字节跳动 Seed1.8 试图用一个模型统一搜索、编程和 GUI 交互的 Agent 能力。第三条是 AI Agent 从开发者工具走向企业基础设施——Anthropic 推出 Computer Use,Cursor 支持自托管 Agent,Box 接入 Codex,"Everything is CLI" 成为新趋势。 这三条叙事线的交汇点是一个正在成形的新共识:AI Agent 的竞赛已经从"模型多聪明"转向"系统多灵活"。编排层、部署层、协议层正在各就各位,形成一个完整的 Agent 基础设施栈。但与此同时,安全和认知债务的警告也在同一周响起——Simon Willison 呼吁放慢 Agent 代码生成速度,litellm 遭遇供应链攻击,提醒我们这个栈的地基尚不牢固。 本周多源数据共 128 条,覆盖博客(12)、论文(30)、推文(50)、播客(6)和 GitHub Trending(30),以下是深度分析。

推荐周报 2026-W13

本周推荐系统研究围绕三条主线展开。第一条是 Semantic ID 生成式推荐从范式验证进入工程深水区——冷启动信号平衡、广告变现兼容、分布外鲁棒性、推理能力注入,五篇论文分别攻克不同的落地痛点,其中阿里巴巴 OneSearch-V2 线上取得 CTR +3.98%、转化率 +3.05% 的实效。第二条是 LLM Agent 在推荐和搜索中的角色正在从"端到端替代"走向"分层协作"——推理归 LLM,执行归确定性模块,训练用强化学习对齐中间步骤与最终目标。第三条是工业搜索排序系统的效率战——淘宝 KARMA 用语义正则化解决 LLM 微调中的知识退化,UniScale 论证数据与模型必须协同扩展,DIET 将训练数据压缩至 1-2% 仍保持性能趋势一致。 本周共收录 16 篇论文。KARMA 是本周最值得关注的工业论文,覆盖淘宝搜索全链路(召回/粗排/精排)并完成线上部署验证。工业界贡献集中在阿里巴巴搜索体系,学术界则在 LLM Agent 与生成式推荐两个方向持续推进。

推荐周报 2026-W12

本周推荐系统研究围绕三条技术主线展开。第一条是 Semantic ID 驱动的生成式检索持续升温——Spotify 同时放出两篇论文,一篇将 SID 系统部署上线并跑通 A/B test(新节目发现率 +14.3%),另一篇将 SID 作为独立模态统一搜索、推荐和推理,工业界 SID 系统正从"能不能用"进入"怎么用得更好"的阶段。第二条是多模态检索与表示压缩:Apple 交出统一文本/图像/视频的生产级检索架构,Aalto University 将 2B 参数的 VLM 蒸馏为 69M 的文本编码器(延迟降低 50 倍),POSTECH 发现并修复了 VLM embedder 做推荐时的模态崩溃问题。 第三条是工业级精排的信息流控制。阿里巴巴和 Meta 的三篇论文从不同角度切入同一命题——不再无差别地喂入所有特征和信号,而是控制特征参与交互的时机(延迟掩码)、筛选值得精细交互的行为(核心行为选择)、标准化行为信号的分布语义(条件去偏)。Meta 的 MBD 框架尤其值得关注,已部署在两个十亿级用户的短视频平台上,将观看时长与视频时长的相关性从 0.514 压到 0.003。

推荐周报 2026-W11

2026 年第 11 周(3 月 8-14 日),推荐系统研究呈现两条清晰的技术主线。第一,生成式推荐(GR)正在经历从"能跑起来"到"跑得好、跑得快、跑得对"的全栈优化——Netflix/Meta 的指数奖励加权 SFT 解决后训练对齐、LinkedIn 的因果注意力重构将序列长度减半、快手的 FP8 量化将 OneRec-V2 推理延迟降低 49%、阿里的可微几何索引从根源消除长尾偏差,五篇论文从五个维度推进 GR 范式的工业级成熟。第二,LLM 推荐正在从"单次推理出结果"走向 Agent 化范式——Meta 的 VRec 在推理链中插入验证环节、美团的 RecPilot 用多 Agent 框架替代传统推荐列表、中科大的 TriRec 首次引入三方协调、人大/京东的 RecThinker 实现自主工具调用。 表示学习方面同样活跃。华为的 RF-Mem 将认知科学双过程理论引入检索管线,Amazon 的 P²GNN 用原型集增强 GNN 消息传递并在 18 个数据集排名第一,另有工作探索直接从 LLM 隐藏状态提取检索嵌入。此外,联邦推荐、机器遗忘和隐私合规方向也出现了多篇值得关注的工作,指向推荐系统基础设施级的隐私需求正在快速成熟。

推荐周报 2026-W09

本周共收录 23 篇推荐系统相关论文,其中 5 分论文 5 篇,4 分 10 篇,3 分 8 篇,整体质量出色。Generative Recommendation(生成式推荐) 是本周最显著的技术主线,6 篇论文直接聚焦于此,涵盖 Semantic ID 编码、受限解码优化、广告场景部署和多任务统一框架。另一条主线是 LLM 与推荐系统的融合范式——"LLM-as-Rec"(LLM 作为推荐骨干)与"LLM-for-Rec"(LLM 辅助推荐)两条路径本周都有重要进展。工业部署论文占比极高(6 篇含 Online A/B 测试),来自 AliExpress、快手、Apple App Store 等一线平台。