推荐算法日报 - 2026-04-18

type

Post

status

Published

date

Apr 18, 2026 05:02

slug

daily-report-2026-04-18

summary

生成式推荐迈向工业级部署：今日论文显示，生成式推荐（Generative Retrieval）正从学术探索走向大规模工业应用。以JD的GenRec为代表，研究重点转向解决线上部署的实际挑战，如分页请求一致性、长序列编码成本以及策略对齐，并通过A/B测试验证了显著的线上收益（点击+9.5%），标志着该范式进入实用化阶段。; LLM Agent的个性化推理成为新焦点：基于LLM的推荐代理（Agent）正从利用通用记忆向个性化推理演进。腾讯的SAGER框架首次为每个用户配备可自演化的“策略技能”，实现

Section 1: 📊 Trend Analysis

🔥 生成式推荐迈向工业级部署：今日论文显示，生成式推荐（Generative Retrieval）正从学术探索走向大规模工业应用。以JD的GenRec为代表，研究重点转向解决线上部署的实际挑战，如分页请求一致性、长序列编码成本以及策略对齐，并通过A/B测试验证了显著的线上收益（点击+9.5%），标志着该范式进入实用化阶段。

💡 LLM Agent的个性化推理成为新焦点：基于LLM的推荐代理（Agent）正从利用通用记忆向个性化推理演进。腾讯的SAGER框架首次为每个用户配备可自演化的“策略技能”，实现了推理过程的个性化，在公开基准上达到SOTA。这表明，让LLM的“思考方式”适应用户，正成为提升推荐质量的新维度。

🔧 多技术融合解决特定场景问题：学术界的研究呈现出将多种前沿技术（如GNN、LLM、扩散模型、联邦学习）进行创造性组合，以解决特定推荐场景（如游戏、教育、隐私保护）中复杂问题的趋势。例如，结合GNN与LLM来平衡游戏推荐的精度与多样性，或利用扩散模型生成学习路径，体现了技术融合的深度应用。

Section 2: 📋 今日速览

今日速览

JD 提出工业级生成式推荐框架GenRec，线上点击+9.5%，交易+8.7% ↗

腾讯提出自演化用户策略技能的LLM推荐代理SAGER，公开基准SOTA ↗

清华结合GNN与LLM增强游戏推荐，提升精度与多样性 ↗

哈工大提出CPGRec框架平衡游戏推荐的准确性与多样性 ↗

西华大学用Gaussian LSTM和扩散模型生成学习路径，建模认知不确定性 ↗

山东师大提出联邦学习框架SF-UBM，实现隐私保护的LLM跨域推荐 ↗

港大提出训练无关的用户表示初始化方法SG-URInit，提升多模态推荐性能 ↗

中佛罗里达大学提出指标无关的列表式排序学习框架，基于梯度提升优化 ↗

复旦提出CW-GRPO框架，通过LLM评估每轮贡献优化搜索代理 ↗

Google 提出多Agent对话框架TRACE，用反事实解释促进可持续旅游推荐 ↗

Section 3: 📰 Daily Digest

1. GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation

🔗 原文： https://arxiv.org/abs/2604.14878

🏷️ 来源： 🤝 产学合作 | JD.com, Waseda University

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： JD提出首个工业级生成式推荐框架，线上A/B测试点击提升9.5%，交易提升8.7%。

📝 摘要： 本文针对生成式检索（GR）在工业大规模部署中面临的三大挑战（分页请求输出不一致、长序列编码成本高、策略与用户偏好对齐难），提出了GenRec框架。其核心创新包括：提出Page-wise NTP训练任务以提供更密集的梯度信号；设计非对称线性Token Merger压缩多token语义ID，将输入长度减少约2倍；引入结合Group Relative Policy Optimization与NLL正则化的GRPO-SR强化学习方法，并采用混合奖励来稳定对齐。该框架已在JD App上线，为期一个月的在线A/B测试显示，相比原有流水线，点击数和交易数分别提升了9.5%和8.7%，为生成式推荐的工业落地提供了重要参考。

2. SAGER: Self-Evolving User Policy Skills for Recommendation Agent

🔗 原文： https://arxiv.org/abs/2604.14972

🏷️ 来源： 🤝 产学合作 | Tencent, Great Bay University, Hong Kong Baptist University, Sun Yat-Sen University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 腾讯提出首个自演化用户策略技能的LLM推荐代理框架，实现推理过程个性化，在公开基准上达到SOTA。

📝 摘要： 本文指出当前LLM推荐代理的推理逻辑是静态且通用的，无法随用户交互而进化，是性能瓶颈。为此，作者提出了SAGER框架，首次为每个用户配备一个持续演化的、结构化自然语言编码的“策略技能”，用于个性化决策。该框架包含两表示技能架构（解耦演化与推理）、增量对比思维链引擎（通过对比接受与未选项目诊断推理缺陷）和技能增强列表推理。在四个公开基准上的实验表明，SAGER达到了最先进的性能，且其增益与记忆积累正交，证明了推理过程个性化是独立的改进来源。该方法创新性强，但尚未经过线上A/B测试验证。

3. CPGRec+: A Balance-oriented Framework for Personalized Video Game Recommendations

🔗 原文： https://arxiv.org/abs/2604.14586

🏷️ 来源： 🎓 学术界 | Tsinghua

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 结合GNN与LLM提升游戏推荐精度与多样性，在Steam数据集上验证有效。

📝 摘要： 针对现有GNN游戏推荐方法过度关注精度而忽视多样性的问题，本文在CPGRec基础上提出两个新模块进行增强。一是偏好感知边重加权模块，通过分配带符号的边权重来区分用户兴趣与不兴趣，并量化偏好强度以缓解GNN中的过平滑问题。二是偏好感知表示生成模块，利用LLM通过对比全局与个人兴趣来生成游戏和玩家的上下文描述，从而细化表示。在Steam数据集上的实验表明，CPGRec+在准确性和多样性上均优于现有先进模型。该方法属于增量改进，缺乏线上验证。

4. Category-based and Popularity-guided Video Game Recommendation: A Balance-oriented Framework

🔗 原文： https://arxiv.org/abs/2604.14598

🏷️ 来源： 🎓 学术界 | Harbin Institute of Technology, A*STAR

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出CPGRec框架平衡游戏推荐的准确性与多样性，利用类别和流行度信息增强长尾推荐。

📝 摘要： 本文针对视频游戏推荐中精度与多样性失衡、现有方法未能充分利用类别和流行度信息的问题，提出了CPGRec框架。该框架包含三个模块：准确性驱动模块通过更严格地连接游戏来提升精度；多样性驱动模块在游戏图中连接不同类别的邻居，并利用流行游戏节点放大长尾游戏的影响力；综合模块结合前两者，并采用新的负样本评分重加权方法来平衡精度与多样性。在Steam数据集上的实验验证了其有效性。这是一篇典型的学术改进工作，未涉及工业部署。

5. Uncertainty-aware Generative Learning Path Recommendation with Cognition-Adaptive Diffusion

🔗 原文： https://arxiv.org/abs/2604.14613

🏷️ 来源： 🎓 学术界 | Xihua University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出U-GLAD框架，用Gaussian LSTM建模认知不确定性，扩散模型生成学习路径，在教育推荐场景表现优异。

📝 摘要： 针对学习路径推荐中历史交互存在不确定性（如猜对或失误）且缺乏对不同学习目标适应性的问题，本文提出了U-GLAD框架。该框架使用Gaussian LSTM将学习者的认知状态建模为概率分布，以捕捉其潜在真实状态；通过目标导向的概念编码器动态对齐概念语义与个人学习目标；最后，采用生成式扩散模型（而非传统判别式排序）来预测下一个最优概念的潜在表示。在三个公开数据集上的评估表明，U-GLAD显著优于基线模型，并展现出感知交互不确定性和提供稳定目标驱动路径的优越能力。方法新颖，但缺乏工业验证。

6. Federated User Behavior Modeling for Privacy-Preserving LLM Recommendation

🔗 原文： https://arxiv.org/abs/2604.14833

🏷️ 来源： 🎓 学术界 | Shandong Normal University, Shandong University, The University of Queensland, Shandong University of Finance and Economic

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出SF-UBM方法，结合联邦学习与LLM解决隐私保护的跨域推荐问题。

📝 摘要： 本文旨在解决隐私保护下的非重叠跨域推荐问题，其挑战在于无法共享用户数据、跨域数据模态异构以及传统CF信号与LLM特征空间不匹配。为此，作者提出了SF-UBM方法：利用自然语言作为通用桥梁，通过语义增强的联邦架构连接不相交的域（共享加密的文本表示，用户数据保留本地）；设计事实-反事实知识蒸馏模块整合领域无关与领域特定知识；将预学习的用户偏好和跨域物品表示投影到软提示空间，以对齐行为与语义空间。在三个真实跨域对上的实验证明了SF-UBM的有效性。该方法创新性较强，但属于学术界验证的增量工作。

7. Well Begun is Half Done: Training-Free and Model-Agnostic Semantically Guaranteed User Representation Initialization for Multimodal Recommendation

🔗 原文： https://arxiv.org/abs/2604.14839

🏷️ 来源： 🎓 学术界 | The University of Hong Kong, Beijing Institute of Technology, Carnegie Mellon University, Peking University, Macao Polytechnic University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出训练无关、模型无关的用户表示初始化方法SG-URInit，提升多模态推荐性能并缓解冷启动。

📝 摘要： 本文指出多模态推荐中用户表示随机初始化与基于丰富模态信息初始化的物品表示之间存在语义鸿沟。为此，作者提出了SG-URInit方法，通过整合用户交互物品的模态特征及其对应聚类的全局特征，为每个用户构建语义丰富的初始表示，从而捕获局部和全局语义。该方法训练无关且模型无关，可无缝集成到现有多模态推荐模型中，不增加训练开销。在多个真实数据集上的实验表明，SG-URInit能显著提升先进模型的推荐性能，并进一步缓解物品冷启动问题、加速模型收敛。这是一项实用的技术改进，但未经过大规模线上验证。

8. Metric-agnostic Learning-to-Rank via Boosting and Rank Approximation

🔗 原文： https://arxiv.org/abs/2604.15101

🏷️ 来源： 🎓 学术界 | University of Central Florida, University of Macau, Arizona State University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出可微排序损失和梯度提升优化，实现指标无关的列表式排序学习。

📝 摘要： 针对现有列表式排序学习（LTR）方法依赖单一指标、优化目标非可微且泛化性有限的问题，本文提出了一种新颖的指标无关LTR框架。其核心是结合了排序算子的平滑近似与每查询平均均方损失的新可微排序损失函数。然后，作者创新性地采用梯度提升机来最小化每个列表的该损失。大量实验结果表明，该方法在信息检索指标上以相似的效率超越了当前最先进的方法。这是一篇典型的学术改进论文，解决了LTR训练中的优化难题，但缺乏工业界部署验证。

9. Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

🔗 原文： https://arxiv.org/abs/2604.14267

🏷️ 来源： 🎓 学术界 | Fudan University, Shanghai Artificial Intelligence Laboratory

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出CW-GRPO框架，通过LLM评估每轮贡献实现细粒度信用分配，提升搜索代理性能。

📝 摘要： 本文针对基于强化学习训练搜索代理时，过程监督不稳定、结果监督信用分配稀疏的问题，提出了贡献加权GRPO框架。CW-GRPO不直接优化过程奖励，而是利用一个LLM评估器在每一轮搜索中评估检索效用和推理正确性，生成每轮贡献分数。这些分数用于重新缩放基于结果的轨迹优势，从而实现细粒度的信用分配，且不牺牲优化稳定性。在多个知识密集型基准上的实验显示，CW-GRPO在Qwen3-8B和Qwen3-1.7B上分别比标准GRPO提升了5.0%和6.3%。该方法主要关注搜索代理优化，其细粒度信用分配思想对推荐Agent训练有借鉴意义。

10. TRACE: A Conversational Framework for Sustainable Tourism Recommendation with Agentic Counterfactual Explanations

🔗 原文： https://arxiv.org/abs/2604.14223

🏷️ 来源： 🏭 工业界 | Google

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出多Agent LLM框架TRACE，通过反事实解释促进可持续旅游推荐，方法新颖但缺乏工业验证。

📝 摘要： 本文针对传统对话式旅游推荐系统倾向于推荐热门、高碳目的地的问题，提出了TRACE框架，旨在通过交互式引导促进可持续旅游。该框架采用模块化的协调者-工作者多Agent架构，由专门Agent负责激发潜在可持续性偏好、构建结构化用户画像，并生成平衡相关性与环境影响的推荐。其核心创新在于使用Agentic反事实解释和LLM驱动的澄清问题，共同呈现更环保的替代方案并细化对用户意图的理解，从而在不强迫的情况下促进用户反思。用户研究和语义对齐分析表明，TRACE在保持推荐质量和交互响应性的同时，有效支持了可持续决策。该方法新颖，但主要基于用户研究验证，缺乏大规模线上量化指标评估。