生成式推荐 (Generative Recommendation) 工业界深度 Survey

type

Post

status

Published

date

Feb 23, 2026

slug

generative-recommendation-survey

summary

覆盖 101 篇核心论文（58 篇工业界 + 43 篇学术精选），系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心，深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

1. 引言：从级联到生成的范式转换

1.1 传统推荐架构的局限

工业推荐系统长期采用多阶段级联架构：召回（亿级→千级）→ 粗排（千级→百级）→ 精排（逐条打分）→ 重排（多样性/策略调整）。三个根本性问题：

目标割裂：各阶段独立优化代理指标，无法全局最优

误差累积：上游漏掉的好候选，下游再好的模型也救不回

工程复杂度：每阶段独立模型/特征/训练/服务系统

1.2 生成式推荐的核心思想

将推荐重新定义为条件序列生成任务：用户行为序列 → 自回归/扩散生成 → 下一个推荐 item 的离散标识符

学术渊源追溯到 2022 年 Google 的 DSI（Differentiable Search Index），证明"检索 = 生成"可行（见附录）。2023 年 Google 的 TIGER [2305.05065] 建立了完整 GR 框架——RQ-VAE 生成 Semantic ID，Transformer seq2seq 自回归预测，在 Amazon/Google 数据集超越传统检索。

2024 年 Meta 的 HSTU [2402.17152] 是工业界里程碑。核心洞察：推荐的排序和检索都可以转化为序列转导（sequential transduction）问题；HSTU 将 DLRM 异构特征统一序列化，提出 Pointwise Aggregated Attention，在 8192 序列上比 FlashAttention2 快 5.3-15.2x（训练最高 15.2x，推理最高 5.6x），1.5 万亿参数模型线上 A/B 提升 12.4%（ranking 场景），首次在推荐领域验证 Scaling Law。注意：HSTU 同时覆盖 ranking 和 retrieval 两个任务，其核心工业贡献来自 ranking。

1.3 工业落地全景（截至 2026.02）

快手: OneRec 系列（OneRec/V2/Think/OpenOneRec）、OneMall、OneLoc、OneSearch、OneLive、OneSug、KuaiFormer、GEMs、DualGR — 4亿+ DAU，短视频/电商/直播/搜索全场景

Meta: HSTU、LIGER、Context Parallelism Scaling — 数十亿用户；SID 方法（SIDE、Long SIDs 并行生成等）

美团: MTGR（ranking 模型）、DOS — 外卖主流量

Google/YouTube: PLUM、TIGER — 数十亿用户

Pinterest: PinRec — Homefeed/Search/Related Pins retrieval（多 token dense embedding 生成，非 SID 方案）

腾讯: GPR（微信 Channels/朋友圈/公众号广告）、S-GRec、HiGR — 多场景

阿里/淘宝: NEZHA（搜索广告）、URM（Alimama 广告）、ReaSeq（排序）、REG4Rec（广告）、RankGR — 数亿 DAU

百度: GRAB — 信息流广告（10%流量 A/B 测试）

京东: OxygenREC — 多场景推荐

华为: RelayGR — 昇腾 NPU 推理优化

字节跳动: Farewell to Item IDs（部署于搜索引擎排序系统）、MERGE — 流式物品索引

网易: Climber-Pilot（云音乐）、FLAME（GR 高效服务）

小红书: SAGE — 推荐系统（学术验证）

阿里国际: Masked Diffusion GR [2601.19501] — 广告平台

Snap: LLaDA-Rec [2511.23021] — 掩码扩散推荐

Spotify: 联合搜索推荐 Semantic ID [2508.10478]

LinkedIn: CADET — 广告 CTR

Yandex: 十亿参数音乐推荐

GR 已从"学术概念验证"进入"大规模工业部署"阶段，2025-2026 年发表的工业论文数量呈爆发式增长。

2. 方法论演进时间线

Phase 1: 学术奠基期 (2022-2023)

TIGER [2305.05065] (Google): 首个基于 Semantic ID 的生成式检索推荐框架，RQ-VAE + Transformer seq2seq

P5/RLP [2203.13366]: 推荐即语言处理统一框架

GPT4Rec [2304.03879]: GPT 风格生成式推荐

DiffRec [2304.04971]: 扩散模型用于序列推荐

前驱 IR 工作：DSI、NCI、GENRE（见附录）

Phase 2: 工业验证期 (2024)

HSTU [2402.17152] (Meta): 1.5 万亿参数，推荐领域首个 Scaling Law

Better Generalization with SID [2306.08121] (Google): Semantic ID 提升排序泛化

LIGER [2411.18814] (Meta AI + UW-Madison + JKU Linz): 统一生成式和密集检索

Phase 3: 大规模部署期 (2025 H1)

OneRec [2502.18965] (快手): 首个真正替代级联架构的端到端 GR，观看时长 +1.68%

URM [2502.03041] (阿里/Alimama): LLM 作为通用检索器

KuaiFormer [2411.10057] (快手): Transformer 检索，4亿 DAU

PinRec [2504.10507] (Pinterest): 多 token dense embedding 生成（非 SID，使用连续 embedding 而非离散 token）+ outcome conditioning

MTGR [2505.18654] (美团): 借鉴 HSTU 架构做 ranking 模型（非标准 GR），保留交叉特征，单样本 FLOPs 为 DLRM 基线的 65x（55.76 GFLOPs vs 0.86 GFLOPs），但通过序列压缩等优化总体推理成本降低 12%

PLUM [2510.07784] (Google/YouTube): LLM 适配工业级 GR

Phase 4: 推理增强 + 全场景统一 (2025 H2 — 2026)

OneRec-V2 [2508.20900]: 解决计算分配不均 + RL 增强

OneRec-Think [2510.11639]: 显式推理 + 对话

OpenOneRec [2512.24762]: 开源，向通用智能迈进

OneSearch [2509.03236] / UniSearch [2509.06887] (快手): 搜索 + 推荐统一

OneMall [2601.21770] (快手): 电商多场景统一

OneLive [2602.08612] (快手): 直播推荐

PROMISE [2601.04674]: 过程奖励模型 + Test-Time Scaling

GEMs [2602.13631] (快手): 多流长序列突破

NEZHA [2511.18793] (阿里/搜索广告): 零牺牲（zero-sacrifice）超高速推测解码

OxygenREC [2512.22386] (京东): 指令跟随式 GR

GRAB [2602.01865] (百度): LLM 启发的广告 CTR（6-11M 参数，非 LLM 基座）

关键技术转折点深度分析

本节对定义了 GR 范式演进的 5 个里程碑论文做原文级深度解读。

转折点 1: TIGER — GR 范式的诞生 (Google, NeurIPS 2023)

论文: Recommender Systems with Generative Retrieval [2305.05065] 作者: Shashank Rajput, Nikhil Mehta, Yi Tay, Ed H. Chi 等 (Google)

为什么是转折点: TIGER 是第一个基于 Semantic ID 的生成式检索推荐框架，建立了"推荐 = 序列生成"的范式。

核心技术细节:

Semantic ID 生成: 使用 RQ-VAE (Residual-Quantized Variational AutoEncoder) 将 item 的内容 embedding 编码为离散 token 元组。每个 item 被表示为 (c₁, c₂, ..., c_L)，其中 c_l 来自第 l 层 codebook。这种层级结构使得语义相近的 item 共享前缀 token。

Seq2Seq 生成: 基于 Transformer encoder-decoder，输入用户会话中的 Semantic ID 序列，自回归解码预测下一个交互 item 的 Semantic ID。

关键实验发现:

在 Amazon Product Reviews 三个子类别（Beauty, Sports and Outdoors, Toys and Games）上，TIGER 在 Recall@K 和 NDCG@K 上显著超越 SOTA（包括 SASRec、BERT4Rec、S³-Rec 等）

泛化能力: Semantic ID 的语义结构使模型对无历史交互的冷启动 item 也有良好检索能力——这是传统 collaborative filtering 无法做到的

局限性（被后续工作解决）:

RQ-VAE 存在 codebook collapse（大部分输入映射到少数 codebook 向量），后被 OneRec 称为"沙漏现象"

只在学术数据集验证，未在工业环境部署

纯语义 ID 缺乏协同信号

历史意义: TIGER 证明了 GR 作为推荐范式的可行性，直接启发了后续所有工业系统的设计。

转折点 2: HSTU — 推荐领域的 Scaling Law (Meta, ICML 2024)

论文: Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations [2402.17152] 作者: Jiaqi Zhai, Lucy Liao 等 (Meta)

为什么是转折点: HSTU 首次在推荐系统中验证了类似 LLM 的 Scaling Law，证明推荐模型质量随训练计算量呈幂律关系，将推荐系统的"炼丹"推向了系统化 scaling。注意：HSTU 的"Generative Recommenders"框架同时覆盖 ranking（排序）和 retrieval（检索）两个任务，其 12.4% 的核心 A/B 提升来自 ranking 场景。

核心技术细节:

特征统一序列化: 传统 DLRM 将特征分为类别型（embedding table）和数值型（MLP），HSTU 将所有特征统一为时间序列 token：

用户行为（点击、购买、观看）→ action token

Item 特征 → feature token

上下文（时间、位置）→ context token

全部按时间顺序排列成单一序列

Pointwise Aggregated Attention: 传统注意力的 softmax 归一化在推荐场景中是瓶颈（高基数特征导致注意力被稀释）。HSTU 提出 pointwise 聚合：

不做 softmax 归一化，而是用 pointwise 非线性激活

利用推荐数据天然的稀疏性（用户只交互极少数 item）

在 8192 长度序列上比 FlashAttention2 快 5.3x-15.2x

M-FALCON (Microbatched-Fast Attention Leveraging Cacheable OperatioNs):

传统推荐系统每次请求都重新计算用户表示，HSTU 将用户行为编码缓存

推理时只需增量更新新行为的 token

在固定推理预算内可以服务 target-aware cross attention 复杂 285 倍 的模型

Scaling Law 验证:

模型质量 (offline NDCG) 随训练 FLOPs 呈幂律关系

跨三个数量级验证（从小模型到 1.5 万亿参数）

与 GPT-3 / LLaMA-2 的 scaling 行为一致

线上 A/B 提升 12.4%（ranking 场景，数十亿用户平台）；retrieval 场景 +6.2%

开源: https://github.com/facebookresearch/generative-recommenders

历史意义: HSTU 给了工业界一个明确信号——推荐模型可以像 LLM 一样"暴力 scale"。它将 ranking 和 retrieval 统一为序列转导任务，改变了推荐系统的研发范式，从"精巧特征工程"转向"计算换质量"。值得注意的是，HSTU 的核心工业价值在 ranking 场景，它证明了即使是排序问题也能受益于生成式建模框架。

转折点 3: OneRec — 首次在工业级替代级联架构 (快手, 2025)

论文: OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [2502.18965] 作者: Jiaxin Deng*, Shiyao Wang*, Kuo Cai* 等（8 位共同第一作者）, Guorui Zhou†（通讯）(快手)

为什么是转折点: OneRec 是第一个在真实大规模场景中显著超越传统多阶段级联推荐系统的端到端生成式模型。此前的 GR（包括 TIGER）只能在召回阶段作为选择器，精度无法匹配精排。

核心技术细节:

Residual K-Means Quantization 替代 RQ-VAE: 针对 TIGER 的 RQ-VAE codebook collapse（"沙漏现象"），OneRec 使用多级残差 K-Means 量化（residual K-Means quantization），每级采用 Balanced K-Means Clustering：

每级强制每个 cluster 包含相同数量的 item (w = |V|/K)

逐级残差计算：第 l+1 级编码第 l 级的残差

从粗到细的层级语义结构

Session-wise 生成（核心创新）:

传统 GR 是 point-wise next-item prediction

OneRec 一次生成一个完整 session（5-10 个视频）

Session 定义标准：用户实际观看 ≥5 个视频 + 总观看时长超阈值 + 有互动行为

Session-wise 让模型自主学习 session 内的连贯性和多样性，不再依赖人工规则

Encoder-Decoder + 稀疏 MoE:

编码器：处理用户历史行为序列 H_u

解码器：自回归生成目标 session 的 Semantic ID 序列

解码器中的 FFN 替换为稀疏 MoE（Top-K 路由），推理仅激活 13% 参数

实现大容量 + 低推理成本的平衡

迭代偏好对齐 (IPA):

核心难题: 推荐系统每次只展示一组结果（不像 NLP 可以同时获取正负样本）

解决方案: 训练一个 Reward Model 模拟用户偏好，基于 RM 分数从 beam search 结果中选取 self-hard 负样本

迭代 DPO：每轮用当前模型生成 → RM 打分 → 选 best/worst → DPO 优化 → 下一轮

少量 DPO 样本即可显著提升生成质量

线上效果:

部署在快手主场景（数亿 DAU）

观看时长 +1.68%（工业级推荐系统中属于重大提升）

平均观看时长 +6.56%

在主场景替代传统的召回 + 粗排 + 精排三阶段架构（论文指出互动指标仍有提升空间）

历史意义: OneRec 证明了 GR 不仅是"学术可行"，而且在真实工业场景中可以"全面超越"传统架构。这是 GR 从学术到工业的关键分水岭。

转折点 4: HSTU + OneRec 的路线分歧

HSTU 和 OneRec 代表了 GR 的两条主要技术路线：

维度	HSTU (Meta)	OneRec (快手)
---	---	---
架构	Pointwise Aggregated Attention（论文自称 encoder，因果掩码）	Encoder-Decoder + MoE
特征处理	统一序列化，抛弃交叉特征	保留多模态 embedding
量化	（未公开具体方案）	Residual K-Means Quantization
生成单元	Next-action prediction	Session-wise list generation
偏好对齐	无（纯 scaling）	IPA + DPO
规模	1.5万亿参数	稀疏 MoE，推理 13% 激活
核心哲学	计算换质量 (Scaling Law)	架构创新 + 偏好对齐

美团 MTGR 的关键补充: MTGR 是一个 ranking 模型（使用 discriminative loss，非自回归生成 SID），借鉴 HSTU 架构但保留交叉特征。其核心发现是"直接采用生成式方法放弃精心构造的交叉特征会严重降低性能，且扩大规模无法弥补"。MTGR 单样本 FLOPs 为 DLRM 基线的 65x（55.76 GFLOPs vs 0.86 GFLOPs），但通过序列压缩等优化，总体推理成本反而降低 12%。这说明 HSTU 的"全部序列化"路线可能不适用于所有场景，交叉特征在某些业务中仍不可或缺。

转折点 5: PROMISE — GR 的 Test-Time Scaling (2026)

论文: PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [2601.04674] 作者: 快手 OneRec 团队

为什么是转折点: 将 LLM 领域的 Process Reward Model (PRM) 引入 GR，首次实现推荐系统的 test-time scaling——推理时投入更多计算可持续提升推荐质量。

核心问题 — Semantic Drift:

自回归生成 SID 时，早期 token（粗粒度语义）如果出错，会不可逆地将后续生成引入错误的语义子空间

例：用户喜欢"科技新闻"，第 1 层 token 错误映射到"美食"聚类 → 后续所有 token 都在"美食"子空间内生成 → 推荐完全偏离

传统 beam search 只看最终概率，无法在中间步骤纠偏

解决方案:

训练一个统一的 Process Reward Model (PRM)，在每个 SID token 深度上评估路径前缀质量（通过 InfoNCE loss 在所有深度层上联合训练）

PRM 在每个生成步骤评估当前轨迹的"好坏"

推理时：生成多条候选轨迹 → 每步用 PRM 评分 → 剪枝/重排 → 保留高质量轨迹

增加候选数量（更多计算）→ 推荐质量持续提升 = Test-Time Scaling Law

历史意义: 这意味着 GR 不仅在训练时可以 scale（HSTU），在推理时也可以 scale。这为"推理增强推荐"开辟了全新方向，与 LLM 领域的 o1/DeepSeek-R1 思路一脉相承。

3. 物品表示：Semantic ID 方法论

Semantic ID 是 GR 的基石——将连续的 item embedding 离散化为 token 序列，使 Transformer 可以像生成文本一样生成推荐。

3.1 量化方法

RQ-VAE (残差量化变分自编码器)：TIGER 首创。将 item embedding 通过残差量化逐层编码为离散 token。每层捕获前一层的残差，形成从粗到细的层级结构。

Residual K-Means Quantization（残差 K-Means 量化）：OneRec 系列采用。与 RQ-VAE 的层级残差思想一致，但使用 Balanced K-Means Clustering 替代 VAE 编码器，解决 codebook collapse 问题，确保每级 cluster 分布均衡。

双对齐 (DAS) [2508.10584] (快手): 通过多视角对比对齐（u2i/i2i/u2u co-occurrence）最大化 SID 与协同信号的互信息，并利用双向学习（Dual Learning）对齐用户侧和广告侧量化。

双流正交 (DOS) [2602.04460] (美团): 提出用户-物品双流（user-item dual-flow）正交量化——通过共享编码簿引入协同信号弥合编码簿空间与生成空间的鸿沟，并采用正交残差量化（ORQ）旋转语义空间以最大化语义保留。

动态个性化 (PIT) [2602.08530] (快手): 传统 SID 是静态解耦的，PIT 提出共生成架构（co-generative architecture）实现 tokenizer 和推荐器的端到端共演化，通过用户引导的最小损失选择机制和一对多波束索引（one-to-many beam index）实现动态个性化分词。

3.2 语义 vs 协同

核心张力：纯语义 SID（基于内容 embedding）泛化好但缺乏协同信号；协同增强 SID 推荐准但跨域迁移差。

Farewell to Item IDs [2601.22694] (字节跳动): 彻底抛弃传统 item ID，只用 Semantic ID，释放大规模排序模型的 scaling 潜力（部署于搜索引擎排序系统）

Unified Semantic and ID [2502.16474] (Meta AI + UIUC): 统一语义和 ID 表示学习

Enhancing Embedding Stability [2504.02137]: SID 增强 embedding 稳定性

3.3 SID 长度与并行生成

SID 越长，表达力越强，但自回归生成延迟也越高。

Generating Long SIDs in Parallel [2506.05781] (Meta AI + UCSD): 并行生成长 SID

SIDE [2506.16698] (Meta): SID Embedding 用于高效序列学习

Variable-Length SID [2602.16375]: 变长 SID 适配不同 item 复杂度

End-to-End SID Generation [2602.10445] (腾讯): 端到端 SID 生成用于广告推荐

3.4 多模态 SID

PLUM SID-v2 [2510.07784] (Google): 将多模态 item 特征（文本、图片、视频）离散化为 SID

OneMall Tokenizer [2601.21770] (快手): 电商场景的多场景多模态 tokenizer

FusID [2601.08764]: 多模态融合 SID 用于音乐推荐

Multimodal GR [2602.03713] (Meta AI): 融合语义和协同信号的多模态 GR

4. 模型架构

4.1 Encoder-Decoder vs Decoder-Only

架构	代表	特点
---	---	---
Encoder-Decoder	TIGER, OneRec-V1	编码器处理用户序列，解码器生成 SID
因果注意力 (Causal)	HSTU	Pointwise Aggregated Attention，更好的 scaling
Dual-Decoder	GPR	Heterogeneous Hierarchical Decoder (HHD)
Encoder-Decoder + MoE	OneRec-V1	稀疏 MoE 扩展容量，推理仅激活 13%

趋势：从 Encoder-Decoder 向因果注意力/Decoder-Only 演进（与 LLM 领域一致），但 OneRec 系列证明 Encoder-Decoder + MoE 在推荐场景仍有优势。注意 HSTU 论文中自称 "encoder"（因其任务同时覆盖 encoding 和 generation），但使用因果掩码注意力。

4.2 HSTU 架构详解

Meta HSTU 的关键创新：

Pointwise Aggregated Attention: 将注意力的 softmax 替换为 pointwise 聚合，避免归一化瓶颈

特征统一序列化: 将 DLRM 的类别型/数值型异构特征统一为时间序列 token

稀疏性利用: 利用推荐数据天然的稀疏性加速计算

M-FALCON: 微批量缓存推理（Microbatched-Fast Attention Leveraging Cacheable OperatioNs），在固定推理预算内服务 target-aware cross attention 复杂 285x 的模型

4.3 OneRec 架构演进

OneRec-V1 [2502.18965]:

Encoder-Decoder + 稀疏 MoE（推理激活 13%）

会话级生成（session-wise）替代逐点预测

迭代偏好对齐（IPA）+ DPO

快手线上观看时长 +1.68%，平均观看时长 +6.56%

OneRec-V2 [2508.20900]:

核心架构变革: Encoder-Decoder → Lazy Decoder-Only Architecture，消除编码器瓶颈（V1 中 context encoding 占 97.66% FLOPs），减少 94% 计算量和 90% 训练资源

支持从 0.5B 扩展到 8B 参数，首次在推荐 decoder-only 架构上验证 scaling law

RL 从 Reward Model 驱动转向真实用户反馈驱动: Duration-Aware Reward Shaping + GBPO (Gradient-Bounded Policy Optimization，移除传统 clipping，改用梯度上界约束)

MFU 达到 62%

OneRec-Think [2510.11639]:

三阶段框架: (1) Itemic Alignment — 跨模态 Item-Textual 语义对齐; (2) Reasoning Activation — Reasoning Scaffolding 激活 LLM 推理能力; (3) Reasoning Enhancement — Rollout-Beam reward + GRPO 强化学习

工业部署采用 Think-Ahead 架构（推理和初始 token 生成离线完成，实时仅做最后 token 生成）

OpenOneRec [2512.24762]:

开源 OneRec-Foundation (1.7B/8B)，基于 Qwen3 backbone 做 co-pretraining（Itemic-Text Alignment + Mixed-domain Co-Pretraining）

通过 on-policy distillation 恢复通用推理能力 + Rec-RL 提升推荐精度

配套 RecIF-Bench（8 个多样化任务 benchmark）

4.4 LLM 骨架适配

以预训练 LLM 为基座，在推荐数据上 continued pre-training 的系统：

PLUM [2510.07784] (Google): 基于 Gemini-1.5 MoE，continued pre-training + SFT，保留语言理解和 few-shot 能力

URM [2502.03041] (阿里/Alimama): 基于 Qwen-7B，LLM 作为通用检索器

OpenOneRec [2512.24762] (快手): 基于 Qwen3，OneRec-Foundation (1.7B/8B) co-pretraining

OneRec-Think [2510.11639] (快手): 基于 Qwen-8B，注入显式推理能力

以 LLM 风格架构从零训练（非 LLM 基座）：

KuaiFormer [2411.10057] (快手): Llama 风格 Transformer，通过自适应 item 压缩机制实现 64→256 序列长度仅增 10% 计算（无压缩时增 6 倍）

GPR [2511.10138] (腾讯): 生成式预训练 One-Model 广告范式（从零训练，外接 LLM 提供文本特征）

GRAB [2602.01865] (百度): Causal Action-aware Multi-channel Attention (CamA)，6-11M 参数量级的 CTR 模型（非 LLM 基座）

5. 训练范式

5.1 三段式对齐：Pre-train → SFT → RL

GR 的训练范式正在从 NLP 借鉴 LLM 的三段式对齐：

Pre-training: 在大规模用户行为日志上做 next-token prediction

PLUM: LLM continued pre-training on recommendation data

GPR: 生成式预训练统一广告场景

SFT (Supervised Fine-tuning): 基于人工标注或线上反馈数据做监督微调

OneMall: 对齐 LLM pre-train/post-train pipeline

Climber-Pilot [2602.13581] (网易): 非近视生成推荐 + 指令跟随，采用 Pretrain+SFT 训练范式

RL (Reinforcement Learning): 基于用户反馈的偏好对齐

OneRec: 迭代偏好对齐 (IPA) + DPO

OneRec-V2: RL 增强生成

DRPO [2602.10430] (腾讯, 离线研究): Distributionally Robust Policy Optimization — 解决 off-policy RL 中低质量数据导致的模型崩溃，通过 Optimistic DRO 目标函数严格去噪（仅 RecSim 模拟器验证，无在线部署）

S-GRec [2602.10606] (腾讯): 解耦 LLM 离线语义评判（Personalized Semantic Judge, PSJ）和在线轻量生成器，通过非对称优势策略优化（A2PO）融合语义奖励与业务奖励

SAGE [2601.21452] (小红书, 学术验证): 序列级自适应梯度演化（仅 Amazon/RecIF-Bench 验证，无在线部署）

5.2 Curriculum Learning & Multi-Target

Token-Weighted Multi-Target [2601.17787]: 用课程学习做多目标 token 加权

Token-level Collaborative Alignment [2601.18457]: token 级协同对齐

5.3 多目标优化

PinRec [2504.10507]: Outcome-Conditioned 多 token dense embedding 生成（非 SID），同时优化多指标

HiGR [2512.24787] (腾讯): 层级规划（list-level + item-level）+ 列表级偏好对齐的 slate 推荐

Comprehensive List Generation [2504.15625]: 多生成器重排

6. 推理与解码

6.1 自回归解码的瓶颈

自回归逐 token 生成是 GR 的主要延迟来源。对于 L 层 SID，需要 L 次 forward pass。工业系统通常需要在几十毫秒内完成推理。

6.2 推测式解码

NEZHA [2511.18793] (阿里/搜索广告): 零牺牲（zero-sacrifice）超高速推测解码。部署于淘宝搜索广告候选生成阶段，带来十亿级广告收入提升。通过内嵌轻量级 autoregressive draft head（logit head + RNN transition module）实现推测解码，无需外挂独立 draft model

RelayGR [2601.01712] (华为): Cross-Stage Relay-Race 推理——将用户行为编码和候选排序分到不同阶段，行为编码可提前计算并缓存

6.3 掩码扩散解码

Masked Diffusion GR [2601.19501] (阿里国际): 用掩码扩散替代自回归，通过 warm-up 两阶段并行解码（先稳定语义锚点，再多 token 并行预测）生成 SID，基于 OPQ parallel codebook 结构

LLaDA-Rec [2511.23021] (Snap): 离散扩散并行生成 SID

6.4 结构化采样

Spend Search Where It Pays [2602.10699]: Value-Guided Structured Sampling，在推理时将计算预算分配给高价值候选

PROMISE [2601.04674]: Process Reward Model 驱动的 test-time scaling

6.5 高效服务系统

xGR [2512.11529]: 高效 GR 服务框架

FLAME [2509.22681] (网易云音乐): 大规模 GR 高效服务系统，为 Climber 系列模型提供推理服务

Context Parallelism [2508.04711] (Meta): 在层级序列 Transformer 上做上下文并行，scaling GR 训练

7. 推理增强与 Reasoning

2025 下半年至 2026 年，"让 GR 学会思考"成为最热前沿。

7.1 显式推理

OneRec-Think [2510.11639] (快手): 首个将 LLM 显式推理能力注入 GR 的框架。通过 Itemic Alignment 实现跨模态推理，对话/推理/推荐统一。

ReaSeq [2512.21257] (阿里/TaoRank): 通过 CoT 多智能体协作蒸馏结构化产品知识 + 扩散 LLM 隐式推理推断超越日志的用户行为，部署于淘宝排序系统

REG4Rec [2508.15308] (阿里): Reasoning-Enhanced Generative Model

7.2 过程奖励与 Test-Time Scaling

PROMISE [2601.04674]: 解决 Semantic Drift 问题——SID 早期 token 错误会不可逆地将生成轨迹引向无关语义子空间。引入 Process Reward Model (PRM) 在每个 token 步骤评估，实现 GR 的 test-time scaling law。

7.3 语义引导推理

S²GR [2601.18664] (快手): 在潜空间做分步语义引导推理

DiffuReason [2602.09744]: 桥接潜在推理和生成式精炼

7.4 指令跟随与 Agentic

OxygenREC [2512.22386] (京东): Fast-Slow Thinking 架构，近线 LLM 生成推理指令 + 实时 encoder-decoder 执行，多场景 (multi-scenario) train-once-deploy-everywhere

Climber-Pilot [2602.13581] (网易): 非近视 + 指令跟随

QARM V2 [2602.08559] (快手): 用推理建模用户序列的多模态对齐

8. 长序列建模

用户终身行为序列可达数万 token，如何高效建模是核心挑战。

8.1 压缩与分层

HSTU [2402.17152]: 8192 序列长度，稀疏注意力

KuaiFormer [2411.10057]: 自适应 item 压缩（早期序列分组压缩 + 近期序列拼接），64→256 序列仅增 10% 计算（无压缩时增 6 倍）

MTGR [2505.18654]: 用户级压缩加速训练推理

8.2 多流与分段

GEMs [2602.13631] (快手): 三流架构突破长序列瓶颈——将用户行为分为 Recent（实时）、Mid-term（轻量级 indexer cross attention）、Lifecycle（离线压缩 + 在线轻量推理）三个时间流，处理 100,000+ 次交互的终身序列

DualGR [2511.12518] (快手): 长/短期兴趣双流 GR

Recurrent Preference Memory [2602.11605]: 循环偏好记忆实现高效长序列

8.3 跨阶段复用

RelayGR [2601.01712] (华为): 用户行为编码独立于候选，可跨阶段缓存复用

GLASS [2602.05663]: SID-Tier + 语义搜索实现长序列 GR

9. 扩散模型在生成式推荐中的应用

扩散模型作为自回归之外的另一条生成路径，正在 GR 中崭露头角。

9.1 掩码扩散

Masked Diffusion GR [2601.19501] (阿里国际): 离散掩码扩散 + warm-up 两阶段并行解码，基于 OPQ parallel codebook

LLaDA-Rec [2511.06254] / [2511.23021] (Snap): 离散扩散并行生成 SID

9.2 连续扩散

DiffRec [2304.04971]: 扩散模型用于序列推荐

DiffuRec [2304.00686]: 连续扩散序列推荐

ContRec [2504.12007]: 连续 token 扩散 GR

DreamRec [2310.20453]: 引导扩散重塑序列推荐

PDRec [2401.02913]: 插件式扩散序列推荐

9.3 扩散 + 协同

IGDMRec [2512.19983]: item 图扩散多模态推荐

MDiffFR [2512.24715]: 模态引导扩散联邦推荐

Adaptive Diffusion Augmentation [2601.01448]: 自适应扩散增强

扩散方法的核心优势：(1) 并行生成消除自回归延迟 (2) 全局依赖建模 (3) 灵活控制（条件生成、引导采样）。劣势：与传统推荐指标的对齐仍在探索中。

10. LLM 原生推荐

"LLM as Rec"指利用大模型的模型结构和基座权重，在文本、Semantic ID 或业务数据上继续训练，从而得到一个具有文本和 SID 推荐能力的大模型。需与 LLM4Rec（LLM 作为外部工具辅助推荐）、纯文本聚排推荐（无 SID 也无 LLM 训练）、特征抽取式推荐（LLM 仅为下游模型提取特征）做严格区分。

10.1 LLM as Rec（基于 LLM 基座的推荐模型）

这些系统以预训练 LLM 为基座，在推荐数据上做 continued pre-training / SFT / RL，使模型同时具备语言理解和推荐生成能力：

PLUM [2510.07784] (Google/YouTube): 基于 Gemini-1.5 MoE，continued pre-training + SFT on recommendation data + SID-v2 多模态量化，保留语言理解和 few-shot 能力

URM [2502.03041] (阿里/Alimama): 基于 Qwen-7B，LLM 作为通用检索器，multi-query 表示

OpenOneRec [2512.24762] (快手): 基于 Qwen3 的 OneRec-Foundation (1.7B/8B)，co-pretraining（Itemic-Text Alignment + Mixed-domain Co-Pretraining）+ on-policy distillation + Rec-RL，兼具通用推理与推荐能力

OneRec-Think [2510.11639] (快手): 基于 Qwen-8B，三阶段注入推理能力（Itemic Alignment → Reasoning Activation → Reasoning Enhancement），实现对话+推理+推荐统一

10.2 LLM + SID 融合

Align³GR [2511.11255]: 统一多层级对齐的 LLM-based GR

CoNRec [2601.15721]: 上下文感知负向推荐

SimGR [2602.07847]: 逃离 LLM-based 推荐的生成解码陷阱

UniGRec [2601.17438]: 统一 GR + 软标识符端到端优化

Unleashing Native Rec Potential [2601.06798]: LLM 原生推荐能力 + Staged Tokenization

10.3 LLM for 冷启动

LLM 的世界知识对冷启动 item 特别有价值：

Sell It Before You Make It [2503.22182] (阿里): AI 生成商品图片个性化推荐，冷启动场景

11. 系统工程与部署

11.1 训练系统

Context Parallelism [2508.04711] (Meta): 在 HSTU 上实现上下文并行训练，scaling 到更长序列

Massive Memorization [2510.22049] (Meta): 百万亿参数的记忆化

11.2 推理系统

系统	核心技术	加速比
---	---	---
NEZHA (阿里/搜索广告)	零牺牲推测解码	十亿级广告收入提升
RelayGR (华为)	跨阶段 relay-race + KV Cache	昇腾 NPU
FLAME (网易)	大规模 GR 高效服务	工业级
xGR	高效 GR 服务框架	通用

11.3 全链路统一

GR 的终极目标是用一个模型替代整个级联架构：

OneRec 系列 (快手): 召回 + 排序统一

UniSearch / OneSearch (快手): 搜索 + 推荐统一

OneMall (快手): 多场景统一（商品卡/短视频/直播）

OxygenREC (京东): 多场景统一

GPR (腾讯): One-Model 广告范式

12. 公司级系统深度分析

12.1 快手 — GR 工业化先驱

快手是 GR 工业化最激进的公司，论文数量和系统覆盖范围远超其他玩家。

核心系统矩阵:

KuaiFormer: Transformer 检索基座，4亿 DAU，500亿日请求

OneRec: 端到端 GR，首次在工业级替代级联架构

OneRec-V2: Lazy Decoder-Only 架构 + 真实用户反馈 RL

OneRec-Think: 推理能力（三阶段：Itemic Alignment → Reasoning Activation → Reasoning Enhancement）

OpenOneRec: 开源 OneRec-Foundation (1.7B/8B)，基于 Qwen3 backbone

OneSearch/UniSearch: 搜索统一

OneMall: 电商统一

OneLive: 直播统一

OneLoc: 本地生活

GEMs: 三流（Recent/Mid-term/Lifecycle）长序列突破

DualGR: 双分支长短期路由（DBR）检索模型

DAS: 双对齐 SID（多视角对比 + 用户-广告双向学习）

PIT: 动态个性化 tokenizer（共生成架构 + 共演化学习）

QARM V2: 多模态推理对齐

关键技术路线: Encoder-Decoder + MoE → 会话级生成 → RL 对齐 → 显式推理 → 全场景统一

12.2 Meta — Scaling Law 开创者

HSTU: 1.5万亿参数，推荐 Scaling Law，Pointwise Aggregated Attention

Context Parallelism: HSTU 的训练 scaling

Massive Memorization: 百万亿参数记忆化

ROO / GESR: 粗排/早期排序的生成式方案

LIGER: 统一生成式和密集检索（Meta AI + UW-Madison + JKU Linz）

Unified Semantic and ID [2502.16474]: 统一语义和 ID 表示学习（Meta AI + UIUC）

SIDE [2506.16698]: SID Embedding 高效序列学习

Generating Long SIDs in Parallel [2506.05781]: 并行生成长 SID（Meta AI + UCSD）

Multimodal GR [2602.03713]: 多模态 GR

Enhancing Embedding Stability [2504.02137]: SID 增强 embedding 稳定性

Don't Waste It [2511.10492]: Meta AI + UC Berkeley

关键贡献: 证明推荐模型可以像 LLM 一样 scale，奠定理论基础；在 SID 方法和架构创新方面也有广泛布局

12.3 Google/YouTube

TIGER: 学术界 GR 奠基工作

PLUM: 首个将预训练 LLM（Gemini-1.5 MoE）适配到工业级 GR 的框架（YouTube），使用 SID-v2 多模态量化

Better Generalization with SID: 排序场景验证

关键贡献: 从 DSI/TIGER 学术开创到 PLUM 工业部署，完成学术→工业闭环

12.4 美团

MTGR: 借鉴 HSTU 架构的 ranking 模型（discriminative loss，非 GR 的自回归生成范式），保留交叉特征（核心发现：放弃交叉特征会严重降低性能，扩大规模无法弥补）

DOS: 双流正交 SID

关键洞察: MTGR 实质是 ranking 模型（非标准 GR），其核心发现"直接采用生成式方法放弃精心构造的交叉特征会严重降低性能，且扩大规模无法弥补"——与 Meta 纯 scale 路线不同

12.5 阿里/淘宝

NEZHA: 零牺牲（zero-sacrifice）超高速推测解码，部署于淘宝搜索广告候选生成

URM: LLM 通用检索器，部署于 Alimama 广告平台

ReaSeq: CoT 多智能体推理 + 扩散 LLM 隐式推理，部署于淘宝排序系统 (TaoRank)

REG4Rec: 推理增强生成模型，部署于阿里广告平台

RankGR: Listwise DPO 排序

Masked Diffusion GR [2601.19501]: 掩码扩散 GR，阿里国际数字商业（东南亚电商）

SCASRec: 高德导航推荐

关键贡献: 推理加速（NEZHA）+ 推理增强（ReaSeq/REG4Rec）+ LLM as Rec（URM，基于 Qwen-7B）

12.6 腾讯

GPR: 广告场景 One-Model（微信 Channels/朋友圈/公众号多场景）

S-GRec: 个性化语义感知 GR（微信视频号广告流量 A/B 测试）

HiGR: 层级 slate 推荐（"large-scale commercial media platform"）

DRPO: 分布鲁棒策略优化（离线研究，仅 RecSim 模拟器验证，无在线部署）

End-to-End SID Generation: 广告 SID

Spend Search Where It Pays [2602.10699]: Value-Guided Structured Sampling

关键场景: 微信生态广告（视频号/朋友圈/公众号），多目标优化

12.7 Pinterest

PinRec [2504.10507]: 工业级多 token 生成式检索 + outcome conditioning。核心创新：(1) 使用 dense embedding（非 SID 离散 token），多 token 并行生成提升效率 (2) outcome conditioning 让模型在生成时就考虑下游指标