生成式推荐 (Generative Recommendation) 工业界深度 Survey
2026-2-23
| 2026-2-24
字数 10174阅读时长 26 分钟
type
status
date
slug
summary
tags
category
icon
password
priority

目录

目录1. 引言:从级联到生成的范式转换1.1 传统推荐架构的局限1.2 生成式推荐的核心思想1.3 工业落地全景(截至 2026.02)2. 方法论演进时间线Phase 1: 学术奠基期 (2022-2023)Phase 2: 工业验证期 (2024)Phase 3: 大规模部署期 (2025 H1)Phase 4: 推理增强 + 全场景统一 (2025 H2 — 2026)关键技术转折点深度分析转折点 1: TIGER — GR 范式的诞生 (Google, NeurIPS 2023)转折点 2: HSTU — 推荐领域的 Scaling Law (Meta, ICML 2024)转折点 3: OneRec — 首次在工业级替代级联架构 (快手, 2025)转折点 4: HSTU + OneRec 的路线分歧转折点 5: PROMISE — GR 的 Test-Time Scaling (2026)3. 物品表示:Semantic ID 方法论3.1 量化方法3.2 语义 vs 协同3.3 SID 长度与并行生成3.4 多模态 SID4. 模型架构4.1 Encoder-Decoder vs Decoder-Only4.2 HSTU 架构详解4.3 OneRec 架构演进4.4 LLM 骨架适配5. 训练范式5.1 三段式对齐:Pre-train → SFT → RL5.2 Curriculum Learning & Multi-Target5.3 多目标优化6. 推理与解码6.1 自回归解码的瓶颈6.2 推测式解码6.3 掩码扩散解码6.4 结构化采样6.5 高效服务系统7. 推理增强与 Reasoning7.1 显式推理7.2 过程奖励与 Test-Time Scaling7.3 语义引导推理7.4 指令跟随与 Agentic8. 长序列建模8.1 压缩与分层8.2 多流与分段8.3 跨阶段复用9. 扩散模型在生成式推荐中的应用9.1 掩码扩散9.2 连续扩散9.3 扩散 + 协同10. LLM 原生推荐10.1 LLM as Rec(基于 LLM 基座的推荐模型)10.2 LLM + SID 融合10.3 LLM for 冷启动11. 系统工程与部署11.1 训练系统11.2 推理系统11.3 全链路统一12. 公司级系统深度分析12.1 快手 — GR 工业化先驱12.2 Meta — Scaling Law 开创者12.3 Google/YouTube12.4 美团12.5 阿里/淘宝12.6 腾讯12.7 Pinterest12.8 百度12.9 京东13. 开放问题与趋势判断13.1 已基本解决的问题13.2 活跃研究方向13.3 未解决的根本挑战13.4 趋势预测14. 结论15. 附录:论文索引工业界论文(按公司)学术界精选论文(43 篇,正文引用)附录:其他相关学术论文(47 篇)

1. 引言:从级联到生成的范式转换

1.1 传统推荐架构的局限

工业推荐系统长期采用多阶段级联架构:召回(亿级→千级)→ 粗排(千级→百级)→ 精排(逐条打分)→ 重排(多样性/策略调整)。三个根本性问题:
  1. 目标割裂:各阶段独立优化代理指标,无法全局最优
  1. 误差累积:上游漏掉的好候选,下游再好的模型也救不回
  1. 工程复杂度:每阶段独立模型/特征/训练/服务系统

1.2 生成式推荐的核心思想

将推荐重新定义为条件序列生成任务:用户行为序列 → 自回归/扩散生成 → 下一个推荐 item 的离散标识符
学术渊源追溯到 2022 年 Google 的 DSI(Differentiable Search Index),证明"检索 = 生成"可行(见附录)。2023 年 Google 的 TIGER [2305.05065] 建立了完整 GR 框架——RQ-VAE 生成 Semantic ID,Transformer seq2seq 自回归预测,在 Amazon/Google 数据集超越传统检索。
2024 年 Meta 的 HSTU [2402.17152] 是工业界里程碑。核心洞察:推荐的排序和检索都可以转化为序列转导(sequential transduction)问题;HSTU 将 DLRM 异构特征统一序列化,提出 Pointwise Aggregated Attention,在 8192 序列上比 FlashAttention2 快 5.3-15.2x(训练最高 15.2x,推理最高 5.6x),1.5 万亿参数模型线上 A/B 提升 12.4%(ranking 场景),首次在推荐领域验证 Scaling Law。注意:HSTU 同时覆盖 ranking 和 retrieval 两个任务,其核心工业贡献来自 ranking。

1.3 工业落地全景(截至 2026.02)

  • 快手: OneRec 系列(OneRec/V2/Think/OpenOneRec)、OneMall、OneLoc、OneSearch、OneLive、OneSug、KuaiFormer、GEMs、DualGR — 4亿+ DAU,短视频/电商/直播/搜索全场景
  • Meta: HSTU、LIGER、Context Parallelism Scaling — 数十亿用户;SID 方法(SIDE、Long SIDs 并行生成等)
  • 美团: MTGR(ranking 模型)、DOS — 外卖主流量
  • Google/YouTube: PLUM、TIGER — 数十亿用户
  • Pinterest: PinRec — Homefeed/Search/Related Pins retrieval(多 token dense embedding 生成,非 SID 方案)
  • 腾讯: GPR(微信 Channels/朋友圈/公众号广告)、S-GRec、HiGR — 多场景
  • 阿里/淘宝: NEZHA(搜索广告)、URM(Alimama 广告)、ReaSeq(排序)、REG4Rec(广告)、RankGR — 数亿 DAU
  • 百度: GRAB — 信息流广告(10%流量 A/B 测试)
  • 京东: OxygenREC — 多场景推荐
  • 华为: RelayGR — 昇腾 NPU 推理优化
  • 字节跳动: Farewell to Item IDs(部署于搜索引擎排序系统)、MERGE — 流式物品索引
  • 网易: Climber-Pilot(云音乐)、FLAME(GR 高效服务)
  • 小红书: SAGE — 推荐系统(学术验证)
  • 阿里国际: Masked Diffusion GR [2601.19501] — 广告平台
  • LinkedIn: CADET — 广告 CTR
  • Yandex: 十亿参数音乐推荐
GR 已从"学术概念验证"进入"大规模工业部署"阶段,2025-2026 年发表的工业论文数量呈爆发式增长。

2. 方法论演进时间线

Phase 1: 学术奠基期 (2022-2023)

  • TIGER [2305.05065] (Google): 首个基于 Semantic ID 的生成式检索推荐框架,RQ-VAE + Transformer seq2seq
  • 前驱 IR 工作:DSI、NCI、GENRE(见附录)

Phase 2: 工业验证期 (2024)

  • HSTU [2402.17152] (Meta): 1.5 万亿参数,推荐领域首个 Scaling Law
  • Better Generalization with SID [2306.08121] (Google): Semantic ID 提升排序泛化
  • LIGER [2411.18814] (Meta AI + UW-Madison + JKU Linz): 统一生成式和密集检索

Phase 3: 大规模部署期 (2025 H1)

  • OneRec [2502.18965] (快手): 首个真正替代级联架构的端到端 GR,观看时长 +1.68%
  • URM [2502.03041] (阿里/Alimama): LLM 作为通用检索器
  • KuaiFormer [2411.10057] (快手): Transformer 检索,4亿 DAU
  • PinRec [2504.10507] (Pinterest): 多 token dense embedding 生成(非 SID,使用连续 embedding 而非离散 token)+ outcome conditioning
  • MTGR [2505.18654] (美团): 借鉴 HSTU 架构做 ranking 模型(非标准 GR),保留交叉特征,单样本 FLOPs 为 DLRM 基线的 65x(55.76 GFLOPs vs 0.86 GFLOPs),但通过序列压缩等优化总体推理成本降低 12%

Phase 4: 推理增强 + 全场景统一 (2025 H2 — 2026)

  • OneRec-V2 [2508.20900]: 解决计算分配不均 + RL 增强
  • PROMISE [2601.04674]: 过程奖励模型 + Test-Time Scaling
  • NEZHA [2511.18793] (阿里/搜索广告): 零牺牲(zero-sacrifice)超高速推测解码
  • GRAB [2602.01865] (百度): LLM 启发的广告 CTR(6-11M 参数,非 LLM 基座)

关键技术转折点深度分析

本节对定义了 GR 范式演进的 5 个里程碑论文做原文级深度解读。

转折点 1: TIGER — GR 范式的诞生 (Google, NeurIPS 2023)

论文: Recommender Systems with Generative Retrieval [2305.05065] 作者: Shashank Rajput, Nikhil Mehta, Yi Tay, Ed H. Chi 等 (Google)
为什么是转折点: TIGER 是第一个基于 Semantic ID 的生成式检索推荐框架,建立了"推荐 = 序列生成"的范式。
核心技术细节:
  1. Semantic ID 生成: 使用 RQ-VAE (Residual-Quantized Variational AutoEncoder) 将 item 的内容 embedding 编码为离散 token 元组。每个 item 被表示为 (c₁, c₂, ..., c_L),其中 c_l 来自第 l 层 codebook。这种层级结构使得语义相近的 item 共享前缀 token。
  1. Seq2Seq 生成: 基于 Transformer encoder-decoder,输入用户会话中的 Semantic ID 序列,自回归解码预测下一个交互 item 的 Semantic ID。
  1. 关键实验发现:
  • 在 Amazon Product Reviews 三个子类别(Beauty, Sports and Outdoors, Toys and Games)上,TIGER 在 Recall@K 和 NDCG@K 上显著超越 SOTA(包括 SASRec、BERT4Rec、S³-Rec 等)
  • 泛化能力: Semantic ID 的语义结构使模型对无历史交互的冷启动 item 也有良好检索能力——这是传统 collaborative filtering 无法做到的
  1. 局限性(被后续工作解决):
  • RQ-VAE 存在 codebook collapse(大部分输入映射到少数 codebook 向量),后被 OneRec 称为"沙漏现象"
  • 只在学术数据集验证,未在工业环境部署
  • 纯语义 ID 缺乏协同信号
历史意义: TIGER 证明了 GR 作为推荐范式的可行性,直接启发了后续所有工业系统的设计。

转折点 2: HSTU — 推荐领域的 Scaling Law (Meta, ICML 2024)

论文: Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations [2402.17152] 作者: Jiaqi Zhai, Lucy Liao 等 (Meta)
为什么是转折点: HSTU 首次在推荐系统中验证了类似 LLM 的 Scaling Law,证明推荐模型质量随训练计算量呈幂律关系,将推荐系统的"炼丹"推向了系统化 scaling。注意:HSTU 的"Generative Recommenders"框架同时覆盖 ranking(排序)和 retrieval(检索)两个任务,其 12.4% 的核心 A/B 提升来自 ranking 场景。
核心技术细节:
  1. 特征统一序列化: 传统 DLRM 将特征分为类别型(embedding table)和数值型(MLP),HSTU 将所有特征统一为时间序列 token:
  • 用户行为(点击、购买、观看)→ action token
  • Item 特征 → feature token
  • 上下文(时间、位置)→ context token
  • 全部按时间顺序排列成单一序列
  1. Pointwise Aggregated Attention: 传统注意力的 softmax 归一化在推荐场景中是瓶颈(高基数特征导致注意力被稀释)。HSTU 提出 pointwise 聚合:
  • 不做 softmax 归一化,而是用 pointwise 非线性激活
  • 利用推荐数据天然的稀疏性(用户只交互极少数 item)
  • 在 8192 长度序列上比 FlashAttention2 快 5.3x-15.2x
  1. M-FALCON (Microbatched-Fast Attention Leveraging Cacheable OperatioNs):
  • 传统推荐系统每次请求都重新计算用户表示,HSTU 将用户行为编码缓存
  • 推理时只需增量更新新行为的 token
  • 在固定推理预算内可以服务 target-aware cross attention 复杂 285 倍 的模型
  1. Scaling Law 验证:
  • 模型质量 (offline NDCG) 随训练 FLOPs 呈幂律关系
  • 跨三个数量级验证(从小模型到 1.5 万亿参数)
  • 与 GPT-3 / LLaMA-2 的 scaling 行为一致
  • 线上 A/B 提升 12.4%(ranking 场景,数十亿用户平台);retrieval 场景 +6.2%
  1. 开源: https://github.com/facebookresearch/generative-recommenders
历史意义: HSTU 给了工业界一个明确信号——推荐模型可以像 LLM 一样"暴力 scale"。它将 ranking 和 retrieval 统一为序列转导任务,改变了推荐系统的研发范式,从"精巧特征工程"转向"计算换质量"。值得注意的是,HSTU 的核心工业价值在 ranking 场景,它证明了即使是排序问题也能受益于生成式建模框架。

转折点 3: OneRec — 首次在工业级替代级联架构 (快手, 2025)

论文: OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [2502.18965] 作者: Jiaxin Deng*, Shiyao Wang*, Kuo Cai* 等(8 位共同第一作者), Guorui Zhou†(通讯)(快手)
为什么是转折点: OneRec 是第一个在真实大规模场景中显著超越传统多阶段级联推荐系统的端到端生成式模型。此前的 GR(包括 TIGER)只能在召回阶段作为选择器,精度无法匹配精排。
核心技术细节:
  1. Residual K-Means Quantization 替代 RQ-VAE: 针对 TIGER 的 RQ-VAE codebook collapse("沙漏现象"),OneRec 使用多级残差 K-Means 量化(residual K-Means quantization),每级采用 Balanced K-Means Clustering:
  • 每级强制每个 cluster 包含相同数量的 item (w = |V|/K)
  • 逐级残差计算:第 l+1 级编码第 l 级的残差
  • 从粗到细的层级语义结构
  1. Session-wise 生成(核心创新):
  • 传统 GR 是 point-wise next-item prediction
  • OneRec 一次生成一个完整 session(5-10 个视频)
  • Session 定义标准:用户实际观看 ≥5 个视频 + 总观看时长超阈值 + 有互动行为
  • Session-wise 让模型自主学习 session 内的连贯性和多样性,不再依赖人工规则
  1. Encoder-Decoder + 稀疏 MoE:
  • 编码器:处理用户历史行为序列 H_u
  • 解码器:自回归生成目标 session 的 Semantic ID 序列
  • 解码器中的 FFN 替换为稀疏 MoE(Top-K 路由),推理仅激活 13% 参数
  • 实现大容量 + 低推理成本的平衡
  1. 迭代偏好对齐 (IPA):
  • 核心难题: 推荐系统每次只展示一组结果(不像 NLP 可以同时获取正负样本)
  • 解决方案: 训练一个 Reward Model 模拟用户偏好,基于 RM 分数从 beam search 结果中选取 self-hard 负样本
  • 迭代 DPO:每轮用当前模型生成 → RM 打分 → 选 best/worst → DPO 优化 → 下一轮
  • 少量 DPO 样本即可显著提升生成质量
  1. 线上效果:
  • 部署在快手主场景(数亿 DAU)
  • 观看时长 +1.68%(工业级推荐系统中属于重大提升)
  • 平均观看时长 +6.56%
  • 在主场景替代传统的召回 + 粗排 + 精排三阶段架构(论文指出互动指标仍有提升空间)
历史意义: OneRec 证明了 GR 不仅是"学术可行",而且在真实工业场景中可以"全面超越"传统架构。这是 GR 从学术到工业的关键分水岭。

转折点 4: HSTU + OneRec 的路线分歧

HSTU 和 OneRec 代表了 GR 的两条主要技术路线:
维度
HSTU (Meta)
OneRec (快手)
---
---
---
架构
Pointwise Aggregated Attention(论文自称 encoder,因果掩码)
Encoder-Decoder + MoE
特征处理
统一序列化,抛弃交叉特征
保留多模态 embedding
量化
(未公开具体方案)
Residual K-Means Quantization
生成单元
Next-action prediction
Session-wise list generation
偏好对齐
无(纯 scaling)
IPA + DPO
规模
1.5万亿参数
稀疏 MoE,推理 13% 激活
核心哲学
计算换质量 (Scaling Law)
架构创新 + 偏好对齐
美团 MTGR 的关键补充: MTGR 是一个 ranking 模型(使用 discriminative loss,非自回归生成 SID),借鉴 HSTU 架构但保留交叉特征。其核心发现是"直接采用生成式方法放弃精心构造的交叉特征会严重降低性能,且扩大规模无法弥补"。MTGR 单样本 FLOPs 为 DLRM 基线的 65x(55.76 GFLOPs vs 0.86 GFLOPs),但通过序列压缩等优化,总体推理成本反而降低 12%。这说明 HSTU 的"全部序列化"路线可能不适用于所有场景,交叉特征在某些业务中仍不可或缺。

转折点 5: PROMISE — GR 的 Test-Time Scaling (2026)

论文: PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [2601.04674] 作者: 快手 OneRec 团队
为什么是转折点: 将 LLM 领域的 Process Reward Model (PRM) 引入 GR,首次实现推荐系统的 test-time scaling——推理时投入更多计算可持续提升推荐质量。
核心问题 — Semantic Drift:
  • 自回归生成 SID 时,早期 token(粗粒度语义)如果出错,会不可逆地将后续生成引入错误的语义子空间
  • 例:用户喜欢"科技新闻",第 1 层 token 错误映射到"美食"聚类 → 后续所有 token 都在"美食"子空间内生成 → 推荐完全偏离
  • 传统 beam search 只看最终概率,无法在中间步骤纠偏
解决方案:
  • 训练一个统一的 Process Reward Model (PRM),在每个 SID token 深度上评估路径前缀质量(通过 InfoNCE loss 在所有深度层上联合训练)
  • PRM 在每个生成步骤评估当前轨迹的"好坏"
  • 推理时:生成多条候选轨迹 → 每步用 PRM 评分 → 剪枝/重排 → 保留高质量轨迹
  • 增加候选数量(更多计算)→ 推荐质量持续提升 = Test-Time Scaling Law
历史意义: 这意味着 GR 不仅在训练时可以 scale(HSTU),在推理时也可以 scale。这为"推理增强推荐"开辟了全新方向,与 LLM 领域的 o1/DeepSeek-R1 思路一脉相承。

3. 物品表示:Semantic ID 方法论

Semantic ID 是 GR 的基石——将连续的 item embedding 离散化为 token 序列,使 Transformer 可以像生成文本一样生成推荐。

3.1 量化方法

RQ-VAE (残差量化变分自编码器):TIGER 首创。将 item embedding 通过残差量化逐层编码为离散 token。每层捕获前一层的残差,形成从粗到细的层级结构。
Residual K-Means Quantization(残差 K-Means 量化):OneRec 系列采用。与 RQ-VAE 的层级残差思想一致,但使用 Balanced K-Means Clustering 替代 VAE 编码器,解决 codebook collapse 问题,确保每级 cluster 分布均衡。
双对齐 (DAS) [2508.10584] (快手): 通过多视角对比对齐(u2i/i2i/u2u co-occurrence)最大化 SID 与协同信号的互信息,并利用双向学习(Dual Learning)对齐用户侧和广告侧量化。
双流正交 (DOS) [2602.04460] (美团): 提出用户-物品双流(user-item dual-flow)正交量化——通过共享编码簿引入协同信号弥合编码簿空间与生成空间的鸿沟,并采用正交残差量化(ORQ)旋转语义空间以最大化语义保留。
动态个性化 (PIT) [2602.08530] (快手): 传统 SID 是静态解耦的,PIT 提出共生成架构(co-generative architecture)实现 tokenizer 和推荐器的端到端共演化,通过用户引导的最小损失选择机制和一对多波束索引(one-to-many beam index)实现动态个性化分词。

3.2 语义 vs 协同

核心张力:纯语义 SID(基于内容 embedding)泛化好但缺乏协同信号;协同增强 SID 推荐准但跨域迁移差。
  • Farewell to Item IDs [2601.22694] (字节跳动): 彻底抛弃传统 item ID,只用 Semantic ID,释放大规模排序模型的 scaling 潜力(部署于搜索引擎排序系统)
  • Unified Semantic and ID [2502.16474] (Meta AI + UIUC): 统一语义和 ID 表示学习
  • Enhancing Embedding Stability [2504.02137]: SID 增强 embedding 稳定性

3.3 SID 长度与并行生成

SID 越长,表达力越强,但自回归生成延迟也越高。
  • Generating Long SIDs in Parallel [2506.05781] (Meta AI + UCSD): 并行生成长 SID
  • SIDE [2506.16698] (Meta): SID Embedding 用于高效序列学习
  • Variable-Length SID [2602.16375]: 变长 SID 适配不同 item 复杂度
  • End-to-End SID Generation [2602.10445] (腾讯): 端到端 SID 生成用于广告推荐

3.4 多模态 SID

  • PLUM SID-v2 [2510.07784] (Google): 将多模态 item 特征(文本、图片、视频)离散化为 SID
  • OneMall Tokenizer [2601.21770] (快手): 电商场景的多场景多模态 tokenizer
  • Multimodal GR [2602.03713] (Meta AI): 融合语义和协同信号的多模态 GR

4. 模型架构

4.1 Encoder-Decoder vs Decoder-Only

架构
代表
特点
---
---
---
Encoder-Decoder
TIGER, OneRec-V1
编码器处理用户序列,解码器生成 SID
因果注意力 (Causal)
HSTU
Pointwise Aggregated Attention,更好的 scaling
Dual-Decoder
GPR
Heterogeneous Hierarchical Decoder (HHD)
Encoder-Decoder + MoE
OneRec-V1
稀疏 MoE 扩展容量,推理仅激活 13%
趋势:从 Encoder-Decoder 向因果注意力/Decoder-Only 演进(与 LLM 领域一致),但 OneRec 系列证明 Encoder-Decoder + MoE 在推荐场景仍有优势。注意 HSTU 论文中自称 "encoder"(因其任务同时覆盖 encoding 和 generation),但使用因果掩码注意力。

4.2 HSTU 架构详解

Meta HSTU 的关键创新:
  • Pointwise Aggregated Attention: 将注意力的 softmax 替换为 pointwise 聚合,避免归一化瓶颈
  • 特征统一序列化: 将 DLRM 的类别型/数值型异构特征统一为时间序列 token
  • 稀疏性利用: 利用推荐数据天然的稀疏性加速计算
  • M-FALCON: 微批量缓存推理(Microbatched-Fast Attention Leveraging Cacheable OperatioNs),在固定推理预算内服务 target-aware cross attention 复杂 285x 的模型

4.3 OneRec 架构演进

OneRec-V1 [2502.18965]:
  • Encoder-Decoder + 稀疏 MoE(推理激活 13%)
  • 会话级生成(session-wise)替代逐点预测
  • 迭代偏好对齐(IPA)+ DPO
  • 快手线上观看时长 +1.68%,平均观看时长 +6.56%
OneRec-V2 [2508.20900]:
  • 核心架构变革: Encoder-Decoder → Lazy Decoder-Only Architecture,消除编码器瓶颈(V1 中 context encoding 占 97.66% FLOPs),减少 94% 计算量和 90% 训练资源
  • 支持从 0.5B 扩展到 8B 参数,首次在推荐 decoder-only 架构上验证 scaling law
  • RL 从 Reward Model 驱动转向真实用户反馈驱动: Duration-Aware Reward Shaping + GBPO (Gradient-Bounded Policy Optimization,移除传统 clipping,改用梯度上界约束)
  • MFU 达到 62%
OneRec-Think [2510.11639]:
  • 三阶段框架: (1) Itemic Alignment — 跨模态 Item-Textual 语义对齐; (2) Reasoning Activation — Reasoning Scaffolding 激活 LLM 推理能力; (3) Reasoning Enhancement — Rollout-Beam reward + GRPO 强化学习
  • 工业部署采用 Think-Ahead 架构(推理和初始 token 生成离线完成,实时仅做最后 token 生成)
OpenOneRec [2512.24762]:
  • 开源 OneRec-Foundation (1.7B/8B),基于 Qwen3 backbone 做 co-pretraining(Itemic-Text Alignment + Mixed-domain Co-Pretraining)
  • 通过 on-policy distillation 恢复通用推理能力 + Rec-RL 提升推荐精度
  • 配套 RecIF-Bench(8 个多样化任务 benchmark)

4.4 LLM 骨架适配

以预训练 LLM 为基座,在推荐数据上 continued pre-training 的系统:
  • PLUM [2510.07784] (Google): 基于 Gemini-1.5 MoE,continued pre-training + SFT,保留语言理解和 few-shot 能力
  • URM [2502.03041] (阿里/Alimama): 基于 Qwen-7B,LLM 作为通用检索器
  • OpenOneRec [2512.24762] (快手): 基于 Qwen3,OneRec-Foundation (1.7B/8B) co-pretraining
  • OneRec-Think [2510.11639] (快手): 基于 Qwen-8B,注入显式推理能力
以 LLM 风格架构从零训练(非 LLM 基座):
  • KuaiFormer [2411.10057] (快手): Llama 风格 Transformer,通过自适应 item 压缩机制实现 64→256 序列长度仅增 10% 计算(无压缩时增 6 倍)
  • GPR [2511.10138] (腾讯): 生成式预训练 One-Model 广告范式(从零训练,外接 LLM 提供文本特征)
  • GRAB [2602.01865] (百度): Causal Action-aware Multi-channel Attention (CamA),6-11M 参数量级的 CTR 模型(非 LLM 基座)

5. 训练范式

5.1 三段式对齐:Pre-train → SFT → RL

GR 的训练范式正在从 NLP 借鉴 LLM 的三段式对齐:
Pre-training: 在大规模用户行为日志上做 next-token prediction
  • PLUM: LLM continued pre-training on recommendation data
  • GPR: 生成式预训练统一广告场景
SFT (Supervised Fine-tuning): 基于人工标注或线上反馈数据做监督微调
  • OneMall: 对齐 LLM pre-train/post-train pipeline
  • Climber-Pilot [2602.13581] (网易): 非近视生成推荐 + 指令跟随,采用 Pretrain+SFT 训练范式
RL (Reinforcement Learning): 基于用户反馈的偏好对齐
  • OneRec: 迭代偏好对齐 (IPA) + DPO
  • OneRec-V2: RL 增强生成
  • DRPO [2602.10430] (腾讯, 离线研究): Distributionally Robust Policy Optimization — 解决 off-policy RL 中低质量数据导致的模型崩溃,通过 Optimistic DRO 目标函数严格去噪(仅 RecSim 模拟器验证,无在线部署)
  • S-GRec [2602.10606] (腾讯): 解耦 LLM 离线语义评判(Personalized Semantic Judge, PSJ)和在线轻量生成器,通过非对称优势策略优化(A2PO)融合语义奖励与业务奖励
  • SAGE [2601.21452] (小红书, 学术验证): 序列级自适应梯度演化(仅 Amazon/RecIF-Bench 验证,无在线部署)

5.2 Curriculum Learning & Multi-Target

  • Token-Weighted Multi-Target [2601.17787]: 用课程学习做多目标 token 加权
  • Token-level Collaborative Alignment [2601.18457]: token 级协同对齐

5.3 多目标优化

  • PinRec [2504.10507]: Outcome-Conditioned 多 token dense embedding 生成(非 SID),同时优化多指标
  • HiGR [2512.24787] (腾讯): 层级规划(list-level + item-level)+ 列表级偏好对齐的 slate 推荐
  • Comprehensive List Generation [2504.15625]: 多生成器重排

6. 推理与解码

6.1 自回归解码的瓶颈

自回归逐 token 生成是 GR 的主要延迟来源。对于 L 层 SID,需要 L 次 forward pass。工业系统通常需要在几十毫秒内完成推理。

6.2 推测式解码

  • NEZHA [2511.18793] (阿里/搜索广告): 零牺牲(zero-sacrifice)超高速推测解码。部署于淘宝搜索广告候选生成阶段,带来十亿级广告收入提升。通过内嵌轻量级 autoregressive draft head(logit head + RNN transition module)实现推测解码,无需外挂独立 draft model
  • RelayGR [2601.01712] (华为): Cross-Stage Relay-Race 推理——将用户行为编码和候选排序分到不同阶段,行为编码可提前计算并缓存

6.3 掩码扩散解码

  • Masked Diffusion GR [2601.19501] (阿里国际): 用掩码扩散替代自回归,通过 warm-up 两阶段并行解码(先稳定语义锚点,再多 token 并行预测)生成 SID,基于 OPQ parallel codebook 结构

6.4 结构化采样

  • Spend Search Where It Pays [2602.10699]: Value-Guided Structured Sampling,在推理时将计算预算分配给高价值候选
  • PROMISE [2601.04674]: Process Reward Model 驱动的 test-time scaling

6.5 高效服务系统

  • FLAME [2509.22681] (网易云音乐): 大规模 GR 高效服务系统,为 Climber 系列模型提供推理服务
  • Context Parallelism [2508.04711] (Meta): 在层级序列 Transformer 上做上下文并行,scaling GR 训练

7. 推理增强与 Reasoning

2025 下半年至 2026 年,"让 GR 学会思考"成为最热前沿。

7.1 显式推理

  • OneRec-Think [2510.11639] (快手): 首个将 LLM 显式推理能力注入 GR 的框架。通过 Itemic Alignment 实现跨模态推理,对话/推理/推荐统一。
  • ReaSeq [2512.21257] (阿里/TaoRank): 通过 CoT 多智能体协作蒸馏结构化产品知识 + 扩散 LLM 隐式推理推断超越日志的用户行为,部署于淘宝排序系统
  • REG4Rec [2508.15308] (阿里): Reasoning-Enhanced Generative Model

7.2 过程奖励与 Test-Time Scaling

  • PROMISE [2601.04674]: 解决 Semantic Drift 问题——SID 早期 token 错误会不可逆地将生成轨迹引向无关语义子空间。引入 Process Reward Model (PRM) 在每个 token 步骤评估,实现 GR 的 test-time scaling law。

7.3 语义引导推理

  • S²GR [2601.18664] (快手): 在潜空间做分步语义引导推理
  • DiffuReason [2602.09744]: 桥接潜在推理和生成式精炼

7.4 指令跟随与 Agentic

  • OxygenREC [2512.22386] (京东): Fast-Slow Thinking 架构,近线 LLM 生成推理指令 + 实时 encoder-decoder 执行,多场景 (multi-scenario) train-once-deploy-everywhere
  • Climber-Pilot [2602.13581] (网易): 非近视 + 指令跟随
  • QARM V2 [2602.08559] (快手): 用推理建模用户序列的多模态对齐

8. 长序列建模

用户终身行为序列可达数万 token,如何高效建模是核心挑战。

8.1 压缩与分层

  • KuaiFormer [2411.10057]: 自适应 item 压缩(早期序列分组压缩 + 近期序列拼接),64→256 序列仅增 10% 计算(无压缩时增 6 倍)

8.2 多流与分段

  • GEMs [2602.13631] (快手): 三流架构突破长序列瓶颈——将用户行为分为 Recent(实时)、Mid-term(轻量级 indexer cross attention)、Lifecycle(离线压缩 + 在线轻量推理)三个时间流,处理 100,000+ 次交互的终身序列
  • Recurrent Preference Memory [2602.11605]: 循环偏好记忆实现高效长序列

8.3 跨阶段复用

  • RelayGR [2601.01712] (华为): 用户行为编码独立于候选,可跨阶段缓存复用
  • GLASS [2602.05663]: SID-Tier + 语义搜索实现长序列 GR

9. 扩散模型在生成式推荐中的应用

扩散模型作为自回归之外的另一条生成路径,正在 GR 中崭露头角。

9.1 掩码扩散

  • Masked Diffusion GR [2601.19501] (阿里国际): 离散掩码扩散 + warm-up 两阶段并行解码,基于 OPQ parallel codebook

9.2 连续扩散

9.3 扩散 + 协同

  • Adaptive Diffusion Augmentation [2601.01448]: 自适应扩散增强
扩散方法的核心优势:(1) 并行生成消除自回归延迟 (2) 全局依赖建模 (3) 灵活控制(条件生成、引导采样)。劣势:与传统推荐指标的对齐仍在探索中。

10. LLM 原生推荐

"LLM as Rec"指利用大模型的模型结构和基座权重,在文本、Semantic ID 或业务数据上继续训练,从而得到一个具有文本和 SID 推荐能力的大模型。需与 LLM4Rec(LLM 作为外部工具辅助推荐)、纯文本聚排推荐(无 SID 也无 LLM 训练)、特征抽取式推荐(LLM 仅为下游模型提取特征)做严格区分。

10.1 LLM as Rec(基于 LLM 基座的推荐模型)

这些系统以预训练 LLM 为基座,在推荐数据上做 continued pre-training / SFT / RL,使模型同时具备语言理解和推荐生成能力:
  • PLUM [2510.07784] (Google/YouTube): 基于 Gemini-1.5 MoE,continued pre-training + SFT on recommendation data + SID-v2 多模态量化,保留语言理解和 few-shot 能力
  • URM [2502.03041] (阿里/Alimama): 基于 Qwen-7B,LLM 作为通用检索器,multi-query 表示
  • OpenOneRec [2512.24762] (快手): 基于 Qwen3 的 OneRec-Foundation (1.7B/8B),co-pretraining(Itemic-Text Alignment + Mixed-domain Co-Pretraining)+ on-policy distillation + Rec-RL,兼具通用推理与推荐能力
  • OneRec-Think [2510.11639] (快手): 基于 Qwen-8B,三阶段注入推理能力(Itemic Alignment → Reasoning Activation → Reasoning Enhancement),实现对话+推理+推荐统一

10.2 LLM + SID 融合

  • Align³GR [2511.11255]: 统一多层级对齐的 LLM-based GR
  • SimGR [2602.07847]: 逃离 LLM-based 推荐的生成解码陷阱
  • UniGRec [2601.17438]: 统一 GR + 软标识符端到端优化
  • Unleashing Native Rec Potential [2601.06798]: LLM 原生推荐能力 + Staged Tokenization

10.3 LLM for 冷启动

LLM 的世界知识对冷启动 item 特别有价值:
  • Sell It Before You Make It [2503.22182] (阿里): AI 生成商品图片个性化推荐,冷启动场景

11. 系统工程与部署

11.1 训练系统

  • Context Parallelism [2508.04711] (Meta): 在 HSTU 上实现上下文并行训练,scaling 到更长序列
  • Massive Memorization [2510.22049] (Meta): 百万亿参数的记忆化

11.2 推理系统

系统
核心技术
加速比
---
---
---
NEZHA (阿里/搜索广告)
零牺牲推测解码
十亿级广告收入提升
RelayGR (华为)
跨阶段 relay-race + KV Cache
昇腾 NPU
FLAME (网易)
大规模 GR 高效服务
工业级
xGR
高效 GR 服务框架
通用

11.3 全链路统一

GR 的终极目标是用一个模型替代整个级联架构:
  • OneRec 系列 (快手): 召回 + 排序统一
  • UniSearch / OneSearch (快手): 搜索 + 推荐统一
  • OneMall (快手): 多场景统一(商品卡/短视频/直播)
  • OxygenREC (京东): 多场景统一
  • GPR (腾讯): One-Model 广告范式

12. 公司级系统深度分析

12.1 快手 — GR 工业化先驱

快手是 GR 工业化最激进的公司,论文数量和系统覆盖范围远超其他玩家。
核心系统矩阵:
  • KuaiFormer: Transformer 检索基座,4亿 DAU,500亿日请求
  • OneRec: 端到端 GR,首次在工业级替代级联架构
  • OneRec-V2: Lazy Decoder-Only 架构 + 真实用户反馈 RL
  • OneRec-Think: 推理能力(三阶段:Itemic Alignment → Reasoning Activation → Reasoning Enhancement)
  • OpenOneRec: 开源 OneRec-Foundation (1.7B/8B),基于 Qwen3 backbone
  • OneSearch/UniSearch: 搜索统一
  • OneMall: 电商统一
  • OneLive: 直播统一
  • OneLoc: 本地生活
  • GEMs: 三流(Recent/Mid-term/Lifecycle)长序列突破
  • DualGR: 双分支长短期路由(DBR)检索模型
  • DAS: 双对齐 SID(多视角对比 + 用户-广告双向学习)
  • PIT: 动态个性化 tokenizer(共生成架构 + 共演化学习)
  • QARM V2: 多模态推理对齐
关键技术路线: Encoder-Decoder + MoE → 会话级生成 → RL 对齐 → 显式推理 → 全场景统一

12.2 Meta — Scaling Law 开创者

  • HSTU: 1.5万亿参数,推荐 Scaling Law,Pointwise Aggregated Attention
  • Context Parallelism: HSTU 的训练 scaling
  • Massive Memorization: 百万亿参数记忆化
  • ROO / GESR: 粗排/早期排序的生成式方案
  • LIGER: 统一生成式和密集检索(Meta AI + UW-Madison + JKU Linz)
  • Unified Semantic and ID [2502.16474]: 统一语义和 ID 表示学习(Meta AI + UIUC)
  • Generating Long SIDs in Parallel [2506.05781]: 并行生成长 SID(Meta AI + UCSD)
  • Enhancing Embedding Stability [2504.02137]: SID 增强 embedding 稳定性
关键贡献: 证明推荐模型可以像 LLM 一样 scale,奠定理论基础;在 SID 方法和架构创新方面也有广泛布局

12.3 Google/YouTube

  • TIGER: 学术界 GR 奠基工作
  • PLUM: 首个将预训练 LLM(Gemini-1.5 MoE)适配到工业级 GR 的框架(YouTube),使用 SID-v2 多模态量化
  • Better Generalization with SID: 排序场景验证
关键贡献: 从 DSI/TIGER 学术开创到 PLUM 工业部署,完成学术→工业闭环

12.4 美团

  • MTGR: 借鉴 HSTU 架构的 ranking 模型(discriminative loss,非 GR 的自回归生成范式),保留交叉特征(核心发现:放弃交叉特征会严重降低性能,扩大规模无法弥补)
  • DOS: 双流正交 SID
关键洞察: MTGR 实质是 ranking 模型(非标准 GR),其核心发现"直接采用生成式方法放弃精心构造的交叉特征会严重降低性能,且扩大规模无法弥补"——与 Meta 纯 scale 路线不同

12.5 阿里/淘宝

  • NEZHA: 零牺牲(zero-sacrifice)超高速推测解码,部署于淘宝搜索广告候选生成
  • URM: LLM 通用检索器,部署于 Alimama 广告平台
  • ReaSeq: CoT 多智能体推理 + 扩散 LLM 隐式推理,部署于淘宝排序系统 (TaoRank)
  • REG4Rec: 推理增强生成模型,部署于阿里广告平台
  • RankGR: Listwise DPO 排序
  • Masked Diffusion GR [2601.19501]: 掩码扩散 GR,阿里国际数字商业(东南亚电商)
  • SCASRec: 高德导航推荐
关键贡献: 推理加速(NEZHA)+ 推理增强(ReaSeq/REG4Rec)+ LLM as Rec(URM,基于 Qwen-7B)

12.6 腾讯

  • GPR: 广告场景 One-Model(微信 Channels/朋友圈/公众号多场景)
  • S-GRec: 个性化语义感知 GR(微信视频号广告流量 A/B 测试)
  • HiGR: 层级 slate 推荐("large-scale commercial media platform")
  • DRPO: 分布鲁棒策略优化(离线研究,仅 RecSim 模拟器验证,无在线部署)
  • End-to-End SID Generation: 广告 SID
  • Spend Search Where It Pays [2602.10699]: Value-Guided Structured Sampling
关键场景: 微信生态广告(视频号/朋友圈/公众号),多目标优化

12.7 Pinterest

  • PinRec [2504.10507]: 工业级多 token 生成式检索 + outcome conditioning。核心创新:(1) 使用 dense embedding(非 SID 离散 token),多 token 并行生成提升效率 (2) outcome conditioning 让模型在生成时就考虑下游指标

12.8 百度

  • GRAB [2602.01865]: LLM 启发的广告 CTR(6-11M 参数),CamA 注意力机制,在百度信息流广告 (feed ad ranking) 10%流量 A/B 测试

12.9 京东

  • OxygenREC [2512.22386]: 指令跟随式 GR,将推荐视为指令执行任务

13. 开放问题与趋势判断

13.1 已基本解决的问题

  • ✅ GR 能否在工业级超越级联架构?—— OneRec、HSTU 等已验证
  • ✅ 推荐是否存在 Scaling Law?—— HSTU 已证明
  • ✅ SID 方法论是否成熟?—— 多种方案经过线上验证

13.2 活跃研究方向

推理增强 (Reasoning):
  • 从"模式匹配"到"显式思考"的转变刚刚开始
  • PROMISE 的 test-time scaling 是重大突破,但 PRM 的训练成本和效果仍需验证
  • OneRec-Think 打开了对话+推理+推荐统一的可能
自回归 vs 扩散:
  • 自回归仍是主流,但掩码扩散(Snap)展示了并行生成的潜力
  • 预计 2026 年会有更多扩散方法进入工业部署
全场景统一:
  • 快手 One 系列正在推进搜索+推荐+电商+直播统一
  • 离"一个模型处理所有推荐场景"仍有距离
LLM as Rec vs 从零训练:
  • PLUM (Gemini-1.5)、URM (Qwen-7B)、OpenOneRec (Qwen3)、OneRec-Think (Qwen-8B) 代表 LLM 基座路线
  • 从零训练的 GR(OneRec-V1/V2、HSTU 等)在效率和工程可控性上仍有优势
  • 最终可能融合:LLM 世界知识 + 推荐专用架构效率

13.3 未解决的根本挑战

  • 实时性:GR 推理延迟仍是核心瓶颈,NEZHA/RelayGR 在解决但未彻底
  • 交叉特征:MTGR 揭示的问题——GR 如何融合传统精细工程特征
  • 冷启动:SID 对新 item 的处理仍不完善
  • 多目标平衡:工业系统需要同时优化 CTR/CVR/时长/多样性/时效性
  • 可解释性:GR 作为黑盒,可解释性比级联架构更差
  • 评估标准:缺乏统一的 GR benchmark,各家指标不可比

13.4 趋势预测

  1. 2026 年将有更多公司完成 GR 全量上线,快手已全场景覆盖,其他大厂在追赶
  1. 推理增强将成为 GR 的核心竞争力——谁的模型"想得更深",推荐质量就更高
  1. 扩散 GR 可能在特定场景(如 slate 推荐)取得突破
  1. 开源 GR(OpenOneRec)将加速中小公司采用
  1. GR + Agent 将成为下一个前沿(OxygenREC 的指令跟随是开端)

14. 结论

生成式推荐已从 2022 年的学术概念发展为 2026 年的工业主流范式。核心演进路径:
表示层: 传统 Item ID → RQ-VAE / Residual K-Means Semantic ID → 双对齐/正交/动态 SID → 无 ID (Farewell to Item IDs)
架构层: Encoder-Decoder → Decoder-Only / MoE → LLM 基座适配(PLUM/URM/OpenOneRec/OneRec-Think) → 全场景统一
训练层: 监督学习 → DPO/RLHF 偏好对齐 → 过程奖励 + Test-Time Scaling
推理层: 标准自回归 → 推测式解码 → 掩码扩散 → 显式推理
系统层: 单任务模型 → 检索+排序统一 → 搜索+推荐统一 → 全场景统一
快手以 OneRec 家族的全面布局领跑,Meta 以 HSTU 的 Scaling Law 奠基,Google 完成学术→工业闭环,美团/阿里/腾讯/百度/Pinterest 等在各自场景形成差异化方案。
GR 的下一步是:更深的推理、更快的推理、更统一的架构

15. 附录:论文索引

工业界论文(按公司)

快手 (Kuaishou):
Meta (Meta AI):
Google/YouTube:
美团 (Meituan):
阿里/淘宝 (Alibaba):
腾讯 (Tencent):
百度 (Baidu):
Pinterest:
京东 (JD.com):
华为 (Huawei):
字节跳动 (ByteDance):
网易 (NetEase):
小红书 (Xiaohongshu):
Snap:
Spotify:

学术界精选论文(43 篇,正文引用)

GR 框架与架构:
SID 方法:
扩散模型(核心):
训练与推理:
长序列与高效服务:
其他:

附录:其他相关学术论文(47 篇)

以下论文与生成式推荐相关但属于外围(Survey、LLM Wrapper、VAE 基线、扩散增强、IR 基础等),仅作参考。
Survey 与综述:
  • A Survey of Generative Search and Recommendation [2404.16924]
IR 基础工作(非推荐,但 GR 的学术渊源):
LLM Wrapper 式推荐(非 GR 范式):
VAE 基线:
扩散增强/外围:
其他外围:

本报告基于 101 篇核心论文(58 篇工业界 + 43 篇学术精选)+ 47 篇学术附录,覆盖 2022-2026 年生成式推荐领域的完整技术演进。以工业落地为核心视角。
  • 推荐
  • 生成式
  • 深度学习
  • Transformer
  • 推荐系统
  • 技术趋势
  • Claude Code 使用技巧与 Agentic EngineeringVibe Coding 核心心法:管 Agent,如带团队
    Loading...
    目录
    0%