覆盖 101 篇核心论文（58 篇工业界 + 43 篇学术精选），系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心，深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

文章详情

推荐系统

深度学习

技术趋势

2017 年，Ilya Sutskever 读到《Attention Is All You Need》时，立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线，全面转向 Transformer，催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天，推荐系统终于走到了同样的路口。 2024 年之前，推荐领域有了 HSTU、TIGER 这样的工作，但大多数团队还在观望。2025 年，我观察到一个明显的转变：大家开始认真地把排序模型 Dense Scaling Up，搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔，切换过程持续了一两年，之后再没人回头。我的判断是，2026 年将是推荐系统 All-In Transformer 的一年，不改变就落后。

文章详情

深度学习

论文

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

文章详情

推荐系统

深度学习

从精排切换成深度学习以来，工业界一直会把排序的模型结构研究切分成基本的两部分，序列处理和特征交叉，甚至有一些公司的排序组，下面都拆成两个Team分别处理行为序列和特征交叉。从最早的时候，比如序列用DIN来处理，序列就被压成了一个或多个向量表征，再参与与其他特征的交叉。我们可以理解成MLP(concat(DIN, Features))，发展到今天大多数的模型研究，还是分立地把MLP换成DCN，增加个LHUC，复杂化为Rank Mixer或Transformer，把DIN叠加MHA，直接换成Transformer，可以写成RankMixer(concat(Transformer, Features))。从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features))，本质没有变，就是序列处理和特征交叉是一个隐式的两阶段处理，序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处，就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中，它能启发推荐排序模型的，就是每一个特征的交叉应该发生在用户序列的Token Space之中。

文章详情