为什么LayerNorm+AdamW成了深度网络的标准配置?从尺度不变性到梯度动力学

深度网络依赖LayerNorm(RMSNorm),这创造了局部的尺度不变性(Scale Invariance),它带了独特的梯度动力学(Gradient Dynamics)。在这个独特的动力学场域中,我们关于机器学习的直觉被颠覆了,Norm的物理含义从特征强度表示变成了学习进度的旋钮,Norm理论上稳步增加,SGD自带学习率衰减,但是刹车踩的太狠导致了学习的早停,而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配:Adam做到了梯度的步长恒定,有效学习率的平缓刹车;Warmup来处理训练早期的权重过小(梯度爆炸)和二阶矩估计不准的问题;AdamW修正了L2正则的问题,引入Weight Decay,把“方向更新”和“进度控制”拆成两个干净的旋钮。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作,清晰地支出是RL的On-Policy特性带来了参数的稳定,而SFT将模型参数推向与预训练分布差异很大的方向,导致了遗忘问题(如图,遗忘问题的衡量就是随着新任务的学习,旧任务的平均表现下降)。 这一清晰地结论,点亮了我对很多事情的理解,推荐系统原来孤立的问题也有可能连成一片,有了更深层次的支撑。 本文包括: • LLM领域,RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习,(猜想)许多缺陷也应当由此而生

推荐周报 2026-W25

本周推荐系统研究集中在三个方向:大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作,提供具体的AB指标。 主线1(大规模图系统的端到端设计): Meta的RankGraph-2(Meta)将图构建、表示学习、在线服务三个阶段耦合优化,在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向,HighLevel的ScoreGate(HighLevel)用双分数统计融合控制RAG检索数量,生产环境减少34.8% token、召回率97.77-99.34%。 主线2(生成式推荐从理论走向生产): Airbnb的JourneyFormer(Airbnb)在搜索排序中部署基于Transformer的序列模型,处理长且稀疏的用户行为;阿里巴巴的OneBar(Alibaba)用端到端生成式框架做视频电商查询推荐,GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束(冷启动、延迟、标签稀疏)下做工程折中,而非单纯追求离线指标。 主线3(多任务排序的Transformer-native范式): Shopee的OneRank(Shopee)消除编码器-预测器分离,在Transformer内部做任务私有通道和梯度分离,线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO(NetEase Cloud Music)用可学习[CLS] token实现列表级多目标重排,CTR+0.62%、CVR+4.45%。两者都说明:将多目标推理内化到Transformer堆中比外挂MLP更有效。

推荐周报 2026-W24

本周推荐系统研究围绕三条技术主线展开:生成式推荐从架构完备走向工业级工程落地,其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克;LLM增强的推荐从离线推理迈向在线实时,谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理;召回排序系统的成本与效率优化出现系统性方案,小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储,同时CTR模型的残差路径设计开始突破缩放定律瓶颈。 主线1(生成式检索工程化): 快手推出的OneRetrieval首次实现了可编辑的生成式检索,在替换倒排索引分支后显著提升订单量与CTR;Yandex的Gryphon引入联合训练的物品级评分组件,替换超过15个候选生成器与粗排阶段,召回量Recall@1000提升3.7%;京东的AdaGRPO通过自适应门控GRPO损失,将HR@10从11.01%提升至12.18%;Meta的Beyond Item IDs提出Global-Aware Compression Transformer,将峰值内存降低一个数量级;阿里的SSRLive通过动态语义ID融入用户-主播交互信号,线上观看时长+3.38%。 主线2(LLM推荐实时化): 谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成,结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值;快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速,GMV+3.446%;DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征,在零售品类上CTR+2.1%;OPPO的ToolRec为小布助手(1.5亿月活)构建了双层级点击校准机制,CTR显著提升。 主线3(召回排序系统效率优化): 小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群,硬件成本节省90%;DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%,且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans(2倍计算节省);Meta的DUET将用户行为分离为点击与转化两个流,分别用专用Transformer预训练,离线NE降低0.38%;eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号,冷启动Recall+5.2%。

推荐周报 2026-W23

本周推荐系统研究围绕三条技术主线展开。 主线1:生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一(线上engagement +1%,延迟-11.1%),跳出了生成式推荐仅做检索的边界。快手的OneReason(线上部署)则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失,并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是:生成式推荐的核心瓶颈已从模型架构转移至数据形态(语义ID)与系统协同。 主线2:跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep(服务4亿+用户)用MLLM推理蒸馏将短视频用户兴趣迁移至直播,冷启动参与度显著提升。Meta的Quantizing Intent论文(线上AUC +1.522%冷启)则将有机feed行为量化为语义ID注入广告排序,证明行为富集度决定跨域迁移质量。两篇的共同发现是:跨域迁移的关键不在对齐特征,而在构建可迁移的语义表征。 主线3:LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO(132天A/B,销量+9.5%)将偏好优化引入销售线索评分,解决稀疏监督和漏斗层级问题。快手的Taiji(CTR +12.4%,收入+15.2%)提出帕累托最优策略优化,在语义与ID之间找到最优权衡点。Syft的DynaTree(生存率提升1.5倍)则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明,LLM在推荐中的应用正从“通用方案”走向“场景定制”。

推荐周报 2026-W22

本周推荐系统研究围绕三条技术主线展开。 工业级知识蒸馏进入迁移率量化时代: 字节跳动、Meta、微软、阿里分别展示了大规模蒸馏框架。字节的Rec-Distill(24B教师、20K序列)实现蒸馏迁移率>60%,阿里GPlan将LLM推理压缩为隐式token,Meta的LoopFM通过结构化中间表示让蒸馏迁移率翻倍,微软HARNESS-LM以190M参数恢复教师98%精度。四篇的共同指向是——蒸馏已经不只是模型压缩手段,而是把大模型能力“货币化”为可量化的业务指标。 生成式推荐从项目生成走向意图序列与条件生成: 阿里QGS在Quark搜索部署conditional next-item预测,Netflix揭示1B参数生成式推荐中不同任务的缩放天花板,清华SID碰撞分析发现Hit@10被高估103%。三篇共同说明——生成式推荐正在进入精细化评估和条件控制阶段。 推荐系统缩放从“堆参数”转向多维协同与测试时计算: Coupang系统研究CVR模型在骨干、嵌入、数据三个维度的可加缩放效应;阿里UTTSI首次将test-time compute引入CTR,无模型修改下CTR提升5.3%;Meta的rank-aware decomposition使DLRM吞吐量提升87.5%。缩放的核心矛盾已从“能不能大”变为“怎么用得巧”。

推荐周报 2026-W21

本周推荐系统研究围绕三条技术主线展开:生成式推荐从“验证可行性”走向“工业级部署与优化”,去偏与校准技术从单一方法走向融合框架,搜索召回系统在冷启动和异构加速上取得具体突破。 生成式推荐进入工业化深水区: 快手、腾讯、美团的四篇部署论文覆盖了推理增强(RPORec)、长兴趣建模(GenLI)、世界知识融合(LWGR)等核心痛点。共同的指向是——生成式推荐的核心问题已从“能不能用”转变为“如何稳定、可控地替换或增强传统pipeline”。 去偏与校准从“纠正均值”走向“治理分布”: 字节跳动的PEARL、快手的DADF、Pinterest的PRL-PUTS分别从对比百分位、残差校正、效用权重调优三个角度,给出了生产级解决方案。其中PEARL的Watch Duration +2.10%和DADF的时间花费+0.347%表明,分布级别偏差校正仍有显著收益空间。 搜索召回系统聚焦冷启动与系统效率: 淘宝的GrowthGR(新商品GMV+5.3%)和Airbnb的合成数据框架(查询长度KL散度降至0.66)展示了LLM+反事实推断在冷启动中的工程潜力。华为与京东合作的Ascend-RaBitQ将billion-scale向量搜索的NPU加速提升至4.6倍,为大规模召回提供了硬件-算法协同的新基准。

推荐周报 2026-W20

本周推荐系统研究围绕三条技术主线展开:生成式推荐架构从tokenizer优化走向推理效率提升,LLM增强推荐从孤立的辅助模块演化为具备记忆与推理能力的智能体,系统工程层的量化与线程编排成为工业部署的实际瓶颈突破点。 主线 1“生成式推荐的解耦与加速”: 阿里在TmallAPP上线 CQ-SID / EG-GRPO,以类别感知语义ID和专家引导强化学习实现GMV +1.15%,生成召回贡献72.63%购买。Tencent与清华的 AsymRec 提出非对称连续-离散框架,用多专家投影替代对称量化,平均提升15.8%。美团的 DIG 将tokenizer嵌入判别式排序模型端到端训练,同时提升检索与排序。Snap的 SID-MLP 用MLP蒸馏替代Transformer解码器,加速8.74倍且精度持平。这些工作的共同指向是——生成式推荐正在从“能跑”向“跑得稳、跑得快”过渡,核心手段是解耦输入输出表示与替换密度过高的结构。 主线 2“LLM推荐向推理与记忆演进”: Microsoft Research的 PGR 引入前瞻引导检索,用Tree-of-Thought扩展查询步骤,在MemoryQuest上召回提升近3倍。美团的 RecRM-Bench 提供了100万条结构化条目覆盖指令遵循、事实一致性等四维奖励,为智能体推荐系统提供基础。SDAR(美团)用门控辅助目标稳定OPSD蒸馏,在ALFWorld、Search-QA等基准上相对GRPO提升7-10%。差异在于——PGR侧重检索前的前瞻推理,SDAR侧重训练中的稳定性,但共同挑战是LLM在推荐场景中的记忆与推理能力仍远未成熟。 主线 3“系统协同设计成为工业落地关键”: Meta的 LoKA 通过Probe-Mods-Dispatch三件套在FP8下实现训练吞吐+20%、推理加速+40%且无质量损失。Xiaohongshu的 CCD-Level Thread Orchestration 利用CCD架构的缓存特性,在ANNS服务上取得3.7x吞吐提升和30-90% P999延迟降低。Baidu的 Efficient Generative Targeting 结合量化、稀疏化和并行验证,实现1.8倍推理加速并部署于广告系统。这些工作表明——模型架构改进的边际效应递减时,硬件感知的系统优化正成为实际收益的主要来源。

推荐周报 2026-W19

本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。 生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。 检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。 工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。

推荐周报 2026-W18

本周 32 篇论文里有几条主线在同时推进。一是生成式推荐范式继续在工业链路里深挖——快手一家就贡献三篇,从 list-wise 重排到召回-排序统一再到 codebook 自适应,配合美团/英伟达的 KV cache serving 和华为的 RL 信号修复,把"生成式推荐能用,但 serving、RL、inference 顶不住"这条线一次性补齐。二是 LLM 推荐器的训练目标被拆开重做——Google 在 H-consistency 框架下证明 DPO 标准代理损失不一致并提出 SA-DPO,Meta 证明 GRPO+二元奖励等价于 AUC 优化并提出 Windowed Partial AUC,配合美团的潜在推理多因子分解和稀疏场景下"对齐够不够"的争论,质疑了"一个对齐目标走到底"的主流做法。三是 LLM 智能体在推荐系统的角色边界正在收敛——LinkedIn 的 schema-aligned 长期语义记忆、AgenticRecTune 的多智能体配置调优、Snap 的端到端趋势检测,三个工业落地都把 LLM 放在配置/记忆/趋势这类延迟不敏感、语义价值高的位置上,绕开了精排召回的实时性瓶颈。 基础设施侧 Meta 同时放出两篇系统论文——一篇 versioned late materialization 砍训练数据冗余,一篇 FreeScale 砍 256 卡分布式的计算气泡,明确支撑 HSTU/ULTRA-HSTU 的序列长度激进 scaling。LLM-检索-重排链路上则形成明显的"压缩派"共识:ResRank 把 passage 压成单 token、UAE 把 utility 信号蒸馏进 embedding、RRK 用多 token 压缩,统一指向"把推理预算从过 LLM 生成压到过一次相似度"。

推荐周报 2026-W17

工业 backbone 的 scaling 主线进入分化期。 本周三篇工业重磅都不再纠结"堆参数",而是从不同侧面回答"参数堆到一定规模后,下一个瓶颈在哪里":腾讯 RankUp 把"表示有效秩坍缩"作为一阶问题攻;阿里 LoopCTR 把训练算力和参数量解耦——共享层递归循环吃训练算力,推理时零循环;美团 SIF 把 token 化粒度从 item 上移到 sample 级,绕开序列与非序列特征的结构异构鸿沟。三家三种解法,但共同前提一致——serving 成本不可破,加法都加在训练侧或表示侧。 LLM 接精排的初期收益期在收尾,进入分层精修阶段。 阿里 MARC 给出"中层表示更优(MRA)"的反直觉观察,并把 LLM 显式拆成"表示学习 + 压缩 + 任务适配"三模块;华东师大 TF-LLMER 从优化曲率切入,定位 LLM 表示与协同 embedding 之间的范数差异和聚类角度错位是训练损失下不去的根因,并在实验中把 Yelp 训练损失约降低 30%;LLMAR 走完全免调优路线,把 nDCG@10 在工业 B2B 稀疏场景拉高 54.6%、每千用户推理成本 $1。理论上要解释训练为何不收敛,工程上要回答缓存哪一层、调不调,部署上要算清每千用户多少钱——三类问题都有了具体答案。 生成式与长序列推荐补足理论债,并开始挑战"候选无关用户表示"假设。 快手对生成式推荐核心训练目标做了形式化证明——k-token AR-NTP 与全词表 MLE 在 item ↔ k-Token 双射下严格等价,OneRec 那条流水线的损失函数选择第一次有了理论锚点。Meta 的 Mixture of Sequence 用主题感知 MoE 把长序列按主题拆成子序列,挑战的是"先压缩再打分"的传统思路;CaST-POI 则把候选当 query 去 attend 用户历史,跳出了"候选无关用户表示"的隐含假设——两条路线都在重写序列读取方式。

推荐周报 2026-W16

本周 17 篇推荐系统论文里,工业界把线上实际部署作为论证工具,三条技术主线非常清楚。 第一条线是生成式推荐落地的工程化转向。 京东 GenRec 在 JD App 跑了一个月 A/B,点击 +9.5%、成交 +8.7%。UniRec 把属性 token 显式注入 SID 解码,HR@50 比最强 baseline 再提 22.6%。字节 R3-VAE 在头条线上拿到 MRR +1.62%,同时把 CTR 模型的内容冷启提高 15.36%。三篇放一起看,生成式召回已经从"能不能跑通"转到"怎么把 prefill 成本压下来、怎么让 RL 训练稳定、怎么在训练期就评估 SID 质量"这些具体工程问题。 第二条线是基础模型不再硬上线。 Meta 的 SOLARIS 把 foundation model 异步预计算、offload 出关键路径,广告系统 top-line revenue +0.67%;Meta 的 Hierarchical Indexing 把扁平索引换成可学习层级结构,支撑 Facebook/Instagram 数十亿日活广告召回;字节 IAT 把单次交互压成 instance token、让下游继续用便宜的标准模型。蒸馏不再是默认解,工业界开始拆解 serving 关键路径。 第三条线是 LLM 的产出物从"推荐结果"退到"中间件"。 本周 LLM 相关的 4 篇——SAGER、local-life agentic reasoning、DUET、SemaCDR——都不让 LLM 直接出分数,而是让它输出 per-user policy skill、可验证推理链、可训练 profile、可迁移语义特征。这是对"LLM 直接当排序器"路线的集体回调。