深度学习

论文

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

文章详情

强化学习

推荐系统

论文

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作，清晰地支出是RL的On-Policy特性带来了参数的稳定，而SFT将模型参数推向与预训练分布差异很大的方向，导致了遗忘问题（如图，遗忘问题的衡量就是随着新任务的学习，旧任务的平均表现下降）。这一清晰地结论，点亮了我对很多事情的理解，推荐系统原来孤立的问题也有可能连成一片，有了更深层次的支撑。本文包括： • LLM领域，RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习，（猜想）许多缺陷也应当由此而生

本周 32 篇论文里有几条主线在同时推进。一是生成式推荐范式继续在工业链路里深挖——快手一家就贡献三篇，从 list-wise 重排到召回-排序统一再到 codebook 自适应，配合美团/英伟达的 KV cache serving 和华为的 RL 信号修复，把"生成式推荐能用，但 serving、RL、inference 顶不住"这条线一次性补齐。二是 LLM 推荐器的训练目标被拆开重做——Google 在 H-consistency 框架下证明 DPO 标准代理损失不一致并提出 SA-DPO，Meta 证明 GRPO+二元奖励等价于 AUC 优化并提出 Windowed Partial AUC，配合美团的潜在推理多因子分解和稀疏场景下"对齐够不够"的争论，质疑了"一个对齐目标走到底"的主流做法。三是 LLM 智能体在推荐系统的角色边界正在收敛——LinkedIn 的 schema-aligned 长期语义记忆、AgenticRecTune 的多智能体配置调优、Snap 的端到端趋势检测，三个工业落地都把 LLM 放在配置/记忆/趋势这类延迟不敏感、语义价值高的位置上，绕开了精排召回的实时性瓶颈。基础设施侧 Meta 同时放出两篇系统论文——一篇 versioned late materialization 砍训练数据冗余，一篇 FreeScale 砍 256 卡分布式的计算气泡，明确支撑 HSTU/ULTRA-HSTU 的序列长度激进 scaling。LLM-检索-重排链路上则形成明显的"压缩派"共识：ResRank 把 passage 压成单 token、UAE 把 utility 信号蒸馏进 embedding、RRK 用多 token 压缩，统一指向"把推理预算从过 LLM 生成压到过一次相似度"。

工业 backbone 的 scaling 主线进入分化期。本周三篇工业重磅都不再纠结"堆参数"，而是从不同侧面回答"参数堆到一定规模后，下一个瓶颈在哪里"：腾讯 RankUp 把"表示有效秩坍缩"作为一阶问题攻；阿里 LoopCTR 把训练算力和参数量解耦——共享层递归循环吃训练算力，推理时零循环；美团 SIF 把 token 化粒度从 item 上移到 sample 级，绕开序列与非序列特征的结构异构鸿沟。三家三种解法，但共同前提一致——serving 成本不可破，加法都加在训练侧或表示侧。 LLM 接精排的初期收益期在收尾，进入分层精修阶段。阿里 MARC 给出"中层表示更优（MRA）"的反直觉观察，并把 LLM 显式拆成"表示学习 + 压缩 + 任务适配"三模块；华东师大 TF-LLMER 从优化曲率切入，定位 LLM 表示与协同 embedding 之间的范数差异和聚类角度错位是训练损失下不去的根因，并在实验中把 Yelp 训练损失约降低 30%；LLMAR 走完全免调优路线，把 nDCG@10 在工业 B2B 稀疏场景拉高 54.6%、每千用户推理成本 $1。理论上要解释训练为何不收敛，工程上要回答缓存哪一层、调不调，部署上要算清每千用户多少钱——三类问题都有了具体答案。生成式与长序列推荐补足理论债，并开始挑战"候选无关用户表示"假设。快手对生成式推荐核心训练目标做了形式化证明——k-token AR-NTP 与全词表 MLE 在 item ↔ k-Token 双射下严格等价，OneRec 那条流水线的损失函数选择第一次有了理论锚点。Meta 的 Mixture of Sequence 用主题感知 MoE 把长序列按主题拆成子序列，挑战的是"先压缩再打分"的传统思路；CaST-POI 则把候选当 query 去 attend 用户历史，跳出了"候选无关用户表示"的隐含假设——两条路线都在重写序列读取方式。

本周 17 篇推荐系统论文里，工业界把线上实际部署作为论证工具，三条技术主线非常清楚。第一条线是生成式推荐落地的工程化转向。京东 GenRec 在 JD App 跑了一个月 A/B，点击 +9.5%、成交 +8.7%。UniRec 把属性 token 显式注入 SID 解码，HR@50 比最强 baseline 再提 22.6%。字节 R3-VAE 在头条线上拿到 MRR +1.62%，同时把 CTR 模型的内容冷启提高 15.36%。三篇放一起看，生成式召回已经从"能不能跑通"转到"怎么把 prefill 成本压下来、怎么让 RL 训练稳定、怎么在训练期就评估 SID 质量"这些具体工程问题。第二条线是基础模型不再硬上线。 Meta 的 SOLARIS 把 foundation model 异步预计算、offload 出关键路径，广告系统 top-line revenue +0.67%；Meta 的 Hierarchical Indexing 把扁平索引换成可学习层级结构，支撑 Facebook/Instagram 数十亿日活广告召回；字节 IAT 把单次交互压成 instance token、让下游继续用便宜的标准模型。蒸馏不再是默认解，工业界开始拆解 serving 关键路径。第三条线是 LLM 的产出物从"推荐结果"退到"中间件"。本周 LLM 相关的 4 篇——SAGER、local-life agentic reasoning、DUET、SemaCDR——都不让 LLM 直接出分数，而是让它输出 per-user policy skill、可验证推理链、可训练 profile、可迁移语义特征。这是对"LLM 直接当排序器"路线的集体回调。

本周推荐系统研究的技术主线清晰：生成式推荐正在从"单场景验证"快速演进到"全链路生产系统"。美团、Snapchat、Meta 等头部平台的论文不再探讨 Semantic ID 的基本可行性，而是深入到多业务扩展、codebook 公平性、增量更新和重排序等部署后的实际痛点。MBGR (2604.02684) 在美团外卖多业务场景实现线上 CTR +1.24%，是本周评分最高的工作。与此并行的另一条主线是 LLM/Agent 范式对推荐与检索的深度渗透。快手将 LLM 推理能力引入电商搜索并设计了去偏 GRPO 变体，Google DeepMind 用 RL 反馈环路对齐对话推荐中的检索器与生成器，Amazon 将非稳态分类重构为基于检索的时序预测。RL 正在成为 LLM 推荐系统的标准训练组件。工业搜索检索层面，Google 和 Walmart 的三篇论文分别瞄准了非语义查询召回、广告搜索的语义-行为信号统一、以及大规模复购推荐的时序建模，全部带线上 A/B 验证。场景特化的工程-算法协同设计正在取代通用方法论。

本周推荐系统研究围绕三条技术主线展开：生成式推荐的工程落地、Agent 驱动的系统自进化、以及排序模型的高效 scaling。生成式推荐从"能跑"走向"跑得稳"。阿里巴巴的 RCLRec 用反向课程学习解决转化信号的极端稀疏问题，线上广告收入 +2.09%；复旦的 DACT 提出 tokenizer 持续更新框架，应对数据分布漂移下的标识符失效。两篇论文的共同指向是——生成式推荐的瓶颈已经不在架构设计，而在工业环境下的持续运行。阿里巴巴同期发布两篇 Agent 推荐系统论文——AutoModel 给工程蓝图，AgenticRS 给理论框架。阿里巴巴系统性地探索了将 Agent 范式引入推荐系统全生命周期管理，agent 的角色从"模拟用户"转变为"替代工程师"。不过两篇论文目前都缺乏线上实验数据，能否跑通自动迭代闭环尚待验证。排序模型的 scaling 竞赛继续加速。快手的 UniMixer 将 attention、TokenMixer、FM 三类架构统一到一个参数化框架，在同等计算预算下 AUC 优于 RankMixer；Google 的零样本跨域知识蒸馏从 YouTube 迁移知识到 YouTube Music，线上 watch time +1.2%，为低流量场景提供了低成本能力迁移路径。

本周推荐系统研究围绕三条主线展开。第一条是 Semantic ID 生成式推荐从范式验证进入工程深水区——冷启动信号平衡、广告变现兼容、分布外鲁棒性、推理能力注入，五篇论文分别攻克不同的落地痛点，其中阿里巴巴 OneSearch-V2 线上取得 CTR +3.98%、转化率 +3.05% 的实效。第二条是 LLM Agent 在推荐和搜索中的角色正在从"端到端替代"走向"分层协作"——推理归 LLM，执行归确定性模块，训练用强化学习对齐中间步骤与最终目标。第三条是工业搜索排序系统的效率战——淘宝 KARMA 用语义正则化解决 LLM 微调中的知识退化，UniScale 论证数据与模型必须协同扩展，DIET 将训练数据压缩至 1-2% 仍保持性能趋势一致。本周共收录 16 篇论文。KARMA 是本周最值得关注的工业论文，覆盖淘宝搜索全链路（召回/粗排/精排）并完成线上部署验证。工业界贡献集中在阿里巴巴搜索体系，学术界则在 LLM Agent 与生成式推荐两个方向持续推进。

本周推荐系统研究围绕三条技术主线展开。第一条是 Semantic ID 驱动的生成式检索持续升温——Spotify 同时放出两篇论文，一篇将 SID 系统部署上线并跑通 A/B test（新节目发现率 +14.3%），另一篇将 SID 作为独立模态统一搜索、推荐和推理，工业界 SID 系统正从"能不能用"进入"怎么用得更好"的阶段。第二条是多模态检索与表示压缩：Apple 交出统一文本/图像/视频的生产级检索架构，Aalto University 将 2B 参数的 VLM 蒸馏为 69M 的文本编码器（延迟降低 50 倍），POSTECH 发现并修复了 VLM embedder 做推荐时的模态崩溃问题。第三条是工业级精排的信息流控制。阿里巴巴和 Meta 的三篇论文从不同角度切入同一命题——不再无差别地喂入所有特征和信号，而是控制特征参与交互的时机（延迟掩码）、筛选值得精细交互的行为（核心行为选择）、标准化行为信号的分布语义（条件去偏）。Meta 的 MBD 框架尤其值得关注，已部署在两个十亿级用户的短视频平台上，将观看时长与视频时长的相关性从 0.514 压到 0.003。

2026 年第 11 周（3 月 8-14 日），推荐系统研究呈现两条清晰的技术主线。第一，生成式推荐（GR）正在经历从"能跑起来"到"跑得好、跑得快、跑得对"的全栈优化——Netflix/Meta 的指数奖励加权 SFT 解决后训练对齐、LinkedIn 的因果注意力重构将序列长度减半、快手的 FP8 量化将 OneRec-V2 推理延迟降低 49%、阿里的可微几何索引从根源消除长尾偏差，五篇论文从五个维度推进 GR 范式的工业级成熟。第二，LLM 推荐正在从"单次推理出结果"走向 Agent 化范式——Meta 的 VRec 在推理链中插入验证环节、美团的 RecPilot 用多 Agent 框架替代传统推荐列表、中科大的 TriRec 首次引入三方协调、人大/京东的 RecThinker 实现自主工具调用。表示学习方面同样活跃。华为的 RF-Mem 将认知科学双过程理论引入检索管线，Amazon 的 P²GNN 用原型集增强 GNN 消息传递并在 18 个数据集排名第一，另有工作探索直接从 LLM 隐藏状态提取检索嵌入。此外，联邦推荐、机器遗忘和隐私合规方向也出现了多篇值得关注的工作，指向推荐系统基础设施级的隐私需求正在快速成熟。

工业推荐排序全面转向 Scaling 工程化。阿里 SORT 订单+6.35%，快手 FlashEvaluator 和 SOLAR 分别优化评估器与注意力效率，字节 HAP 实现粗排计算预算自适应分配。生成式推荐进入目标对齐阶段，多模态去冗余与因果去偏粒度持续细化。36 篇论文深度解读。

本周共收录 23 篇推荐系统相关论文，其中 5 分论文 5 篇，4 分 10 篇，3 分 8 篇，整体质量出色。Generative Recommendation（生成式推荐）是本周最显著的技术主线，6 篇论文直接聚焦于此，涵盖 Semantic ID 编码、受限解码优化、广告场景部署和多任务统一框架。另一条主线是 LLM 与推荐系统的融合范式——"LLM-as-Rec"（LLM 作为推荐骨干）与"LLM-for-Rec"（LLM 辅助推荐）两条路径本周都有重要进展。工业部署论文占比极高（6 篇含 Online A/B 测试），来自 AliExpress、快手、Apple App Store 等一线平台。

文章详情