From Next-One to Next-N:这才是推荐系统的范式改变

推荐系统 20 年来方法换了六七轮,但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥,根源都在这里。真正的范式改变不是换方法,而是重新定义问题:从 Next One 到 Next N。

生成式推荐 (Generative Recommendation) 工业界深度 Survey

覆盖 101 篇核心论文(58 篇工业界 + 43 篇学术精选),系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心,深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

算法工程师的核心能力是什么

谜底就在谜面上。 "算法工程师",做个语法分析,这是个偏正结构。"算法"是定语,"工程师"才是中心语。定语修饰中心语,中心语决定你的身份。 算法工程师核心能力就是"工程能力"。 就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作,后面的中心语才是你安身立命的东西。 定语决定你的赛道,中心语决定你的天花板。

算法组织熵减与Scaling Law的悖论

我们先思考下,一个公司组织里,为什么需要 Leader,需要层级?任何一个超过几十人的组织都需要架构设计。这件事如此普遍,以至于我们很少追问:为什么需要组织架构?组织架构本质上在解决什么问题? 表面上看,组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层,会发现一个有趣的视角:一个组织本质上是一个分布式信息处理系统。 外部信息进来,内部处理,输出决策和行动。组织架构定义的,其实是信息如何在这个系统里流动——谁产生信息,谁消费信息,信息经过哪些节点,在哪里被过滤,在哪里被聚合。

2026:推荐系统 All-In Transformer 的元年

2017 年,Ilya Sutskever 读到《Attention Is All You Need》时,立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线,全面转向 Transformer,催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天,推荐系统终于走到了同样的路口。 2024 年之前,推荐领域有了 HSTU、TIGER 这样的工作,但大多数团队还在观望。2025 年,我观察到一个明显的转变:大家开始认真地把排序模型 Dense Scaling Up,搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔,切换过程持续了一两年,之后再没人回头。我的判断是,2026 年将是推荐系统 All-In Transformer 的一年,不改变就落后。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

最近陆续有了一些研究LLM中RL相比SFT更不容易造成灾难性遗忘的工作,清晰地支出是RL的On-Policy特性带来了参数的稳定,而SFT将模型参数推向与预训练分布差异很大的方向,导致了遗忘问题(如图,遗忘问题的衡量就是随着新任务的学习,旧任务的平均表现下降)。 这一清晰地结论,点亮了我对很多事情的理解,推荐系统原来孤立的问题也有可能连成一片,有了更深层次的支撑。 本文包括: • LLM领域,RL比SFT更不容易造成灾难性遗忘的工作解读 • 推荐系统是标准的off-policy 监督学习,(猜想)许多缺陷也应当由此而生

推荐系统线上能跑多大的模型

本文不是从系统优化角度谈复杂的模型的部署和优化问题,而是从行业成本角度,看线上推理多复杂的模型是可以满足成本及ROI要求的。 做一个假设: • 电商推荐行业,主要是更熟悉成本核算 • 部署标准的Transformer作为排序模型,参考OneTrans结构 • 参数规模对齐qwen2的系列模型,更直观看看能跑哪个尺寸

OneTrans 推荐系统对齐序列处理与特征交叉

从精排切换成深度学习以来,工业界一直会把排序的模型结构研究切分成基本的两部分,序列处理和特征交叉,甚至有一些公司的排序组,下面都拆成两个Team分别处理行为序列和特征交叉。从最早的时候,比如序列用DIN来处理,序列就被压成了一个或多个向量表征,再参与与其他特征的交叉。我们可以理解成MLP(concat(DIN, Features)),发展到今天大多数的模型研究,还是分立地把MLP换成DCN,增加个LHUC,复杂化为Rank Mixer或Transformer,把DIN叠加MHA,直接换成Transformer,可以写成RankMixer(concat(Transformer, Features))。 从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features)),本质没有变,就是序列处理和特征交叉是一个隐式的两阶段处理,序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处,就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中,它能启发推荐排序模型的,就是每一个特征的交叉应该发生在用户序列的Token Space之中。

推荐算法日报 - 2026-06-27

[Agent + LLM 驱动推荐系统自动化]:从架构演化到特征筛选,工业界正系统性地引入 LLM Agent 来替代人工专家。腾讯的 NOVA 框架展示了 Agent 如何自动化完成“论文到生产”的模型升级,PayPal 的 EMA-FS 则用增益感知的筛选策略加速 GBDT 训练。核心趋势是从“调参自动化”走向“架构决策自动化”,但验证和风险控制(如 NOVA 的验证级联)是落地的关键。; [归因与增量性:从“归因”到“归因校正”]:广告归因领域正从简单的“最后一次点击”或“多触点归因”转向

推荐算法日报 - 2026-06-26

生成式推荐进入工业落地爆发期:今日多篇论文(TokenMinds、RaG)将生成式推荐从概念验证推向大规模工业部署。核心趋势是使用统一的Semantic ID (SID) 体系同时表示用户和物品,实现跨场景(长/短视频)的统一建模,并显著降低训练和服务成本。这标志着生成式推荐正从“召回”环节向“排序”和“内容生成”全链路渗透。; 零样本与自适应推理成为降本增效新焦点:面对海量动态物品和复杂查询,工业系统开始探索更智能的资源分配策略。IRENE通过元分类器为未见物品即时合成分类器,解决零样本检索难

推荐算法日报 - 2026-06-25

LLM 蒸馏替代点击信号,重塑工业级召回训练范式:今日两篇来自 Walmart 的工业论文均采用 LLM 作为教师模型,生成结构化标注(相关性或意图),替代传统点击信号来训练双塔召回模型。这解决了点击信号中的位置偏差和长尾稀疏问题,并展示了显著的线上收益,标志着工业界正从“数据驱动”向“模型生成数据驱动”的范式转变。; 图基础模型(GFM)评估趋于理性,PFN 范式或成新方向:学术界对 GFM 的评估揭示了其并非普遍优于传统 GNN。只有基于 Prior-data Fitted Networks

推荐周报 2026-W25

本周推荐系统研究集中在三个方向:大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作,提供具体的AB指标。 主线1(大规模图系统的端到端设计): Meta的RankGraph-2(Meta)将图构建、表示学习、在线服务三个阶段耦合优化,在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向,HighLevel的ScoreGate(HighLevel)用双分数统计融合控制RAG检索数量,生产环境减少34.8% token、召回率97.77-99.34%。 主线2(生成式推荐从理论走向生产): Airbnb的JourneyFormer(Airbnb)在搜索排序中部署基于Transformer的序列模型,处理长且稀疏的用户行为;阿里巴巴的OneBar(Alibaba)用端到端生成式框架做视频电商查询推荐,GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束(冷启动、延迟、标签稀疏)下做工程折中,而非单纯追求离线指标。 主线3(多任务排序的Transformer-native范式): Shopee的OneRank(Shopee)消除编码器-预测器分离,在Transformer内部做任务私有通道和梯度分离,线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO(NetEase Cloud Music)用可学习[CLS] token实现列表级多目标重排,CTR+0.62%、CVR+4.45%。两者都说明:将多目标推理内化到Transformer堆中比外挂MLP更有效。