推荐算法日报 - 2026-03-04

type

Post

status

Published

date

Mar 4, 2026 15:12

slug

daily-report-2026-03-04

summary

生成式推荐走向全链路深度集成：今日多篇论文聚焦生成式推荐范式，核心趋势从单一模块优化转向全链路协同。腾讯的OneRanker实现了生成与排序的架构级融合，清华的APAO则从训练目标层面弥合生成与推理的鸿沟，标志着该领域正从“能用”向“好用、高效”演进。; 工业界聚焦大模型推理效率与系统工程：面对LLM/Transformer带来的计算挑战，工业界论文普遍关注效率优化。快手的FlashEvaluator和SOLAR分别从跨序列并行评估和低秩注意力分解入手，在保证效果的同时显著降低延迟与资源消耗，体

Section 1: 📊 Trend Analysis

🔥 生成式推荐走向全链路深度集成：今日多篇论文聚焦生成式推荐范式，核心趋势从单一模块优化转向全链路协同。腾讯的OneRanker实现了生成与排序的架构级融合，清华的APAO则从训练目标层面弥合生成与推理的鸿沟，标志着该领域正从“能用”向“好用、高效”演进。

💡 工业界聚焦大模型推理效率与系统工程：面对LLM/Transformer带来的计算挑战，工业界论文普遍关注效率优化。快手的FlashEvaluator和SOLAR分别从跨序列并行评估和低秩注意力分解入手，在保证效果的同时显著降低延迟与资源消耗，体现了工业落地中“效果与效率并重”的核心诉求。

💡 多任务与对比学习成为主流优化手段：无论是JD的查询重写、腾讯的广告推荐，还是学术界的蒸馏与公平性研究，多任务学习与强调相对比较的对比学习目标（如InfoNCE）被广泛采用，以更好地对齐多个业务目标、缓解偏差并提升模型鲁棒性。

Section 2: 📋 今日速览

今日速览

快手提出并行评估器FlashEvaluator，实现子线性复杂度并带来显著收入增长 ↗

腾讯发布OneRanker统一生成排序模型，微信广告GMV提升1.34% ↗

清华提出自适应前缀感知优化APAO，解决生成式推荐训练-推理不一致问题 ↗

快手设计SVD-Attention降低注意力复杂度，线上视频观看提升0.68% ↗

JD.com 构建多任务多阶段LLM查询重写框架，提升电商搜索相关性与转化 ↗

中科院&阿里提出平滑-锐化跨域推荐模型S2CDR，无需训练提升冷启动性能 ↗

Sorbonne Université 系统比较交叉编码器蒸馏技术，相对比较目标函数效果更优 ↗

中科院利用分层强化学习HRL4PFG渐进引导用户偏好，提升交互推荐公平性 ↗

Soongsil University 提出无用户、无ID、无GNN的推荐方法AlphaFree，内存减少69% ↗

Section 3: 📰 Daily Digest

1. FlashEvaluator: Expanding Search Space with Parallel Evaluation

🔗 原文： https://arxiv.org/abs/2603.02565

🏷️ 来源： 🏭 工业界 | Kuaishou

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 快手提出FlashEvaluator，通过跨序列信息共享实现高效并行评估，已在线上带来显著收入提升。

📝 摘要： 本文针对生成器-评估器框架中传统评估器缺乏显式跨序列比较、并行效率低（O(K)复杂度）的问题，提出了FlashEvaluator。其核心创新在于通过跨序列token信息共享和单次前向传播处理所有序列，实现了子线性计算复杂度，并支持直接的序列间比较以提升选择准确性。该方法已在快手在线推荐系统中部署，带来了显著且持续的收入增长，并在推荐和NLP任务上通过广泛实验验证了其效率与效果优势。

2. OneRanker: Unified Generation and Ranking with One Model in Industrial Advertising Recommendation

🔗 原文： https://arxiv.org/abs/2603.02999

🏷️ 来源： 🏭 工业界 | Tencent

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 腾讯提出OneRanker统一生成排序模型，微信广告GMV提升1.34%，工业级生成式推荐新范式。

📝 摘要： 为解决生成式广告推荐中兴趣与业务价值错位、生成过程目标无关、生成与排序阶段割裂三大挑战，腾讯提出了OneRanker架构，实现了生成与排序的深度集成。其设计了价值感知的多任务解耦架构以分离兴趣与价值空间，构建了从粗到细的协同目标感知机制，并通过输入输出双侧一致性保证实现端到端协同优化。该模型已在腾讯微信渠道广告系统全面部署，关键业务指标GMV实现了+1.34%的显著提升，为工业级生成式广告推荐提供了新范式。

3. APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation

🔗 原文： https://arxiv.org/abs/2603.02730

🏷️ 来源： 🎓 学术界 | Tsinghua

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 提出自适应前缀感知优化框架，解决生成式推荐中训练-推理不一致问题，提升多个骨干模型性能。

📝 摘要： 本文揭示了生成式序列推荐中，基于token级似然训练与beam search推理之间存在的不一致问题：正确物品可能因其前缀token概率低而在推理中被过早剪枝。为此，作者提出了自适应前缀感知优化框架APAO，通过引入前缀级优化损失来更好地对齐训练与推理目标，并设计了自适应最差前缀优化策略，动态聚焦于训练中最脆弱的前缀以增强模型在beam search下的鲁棒性。该方法在多个数据集和不同生成式推荐骨干模型上均能有效缓解不一致性问题并提升性能。

4. SOLAR: SVD-Optimized Lifelong Attention for Recommendation

🔗 原文： https://arxiv.org/abs/2603.02561

🏷️ 来源： 🏭 工业界 | Kuaishou

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 快手提出SVD-Attention，理论无损降低注意力复杂度，线上带来0.68%视频观看提升。

📝 摘要： 为应对长序列建模中标准注意力O(N²d)的高昂计算成本，本文利用推荐系统表示学习中普遍存在的低秩结构先验，提出了SVD-Attention。该方法在低秩矩阵上理论无损，在保留softmax机制的同时，将注意力复杂度从O(N²d)降至O(Ndr)。基于此构建的SOLAR框架能够支持万级用户行为序列和数千候选物品的建模。在快手在线推荐场景的A/B测试中，SOLAR带来了0.68%的视频观看量提升及其他业务指标改善。

5. Relevance Matters: A Multi-Task and Multi-Stage Large Language Model Approach for E-commerce Query Rewriting

🔗 原文： https://arxiv.org/abs/2603.02555

🏷️ 来源： 🤝 产学合作 | JD.com, Tsinghua

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： JD.com提出多任务多阶段LLM查询重写框架，通过相关性注入和GRPO优化，提升电商搜索相关性和用户转化。

📝 摘要： 针对电商搜索查询重写中需同时优化相关性与用户转化的需求，本文提出了一个基于LLM的多任务多阶段框架。其核心创新在于将相关性任务显式注入重写过程，首先利用京东数据预训练模型进行多任务监督微调，随后采用分组相对策略优化进行目标对齐，以同时提升重写查询的相关性和促进用户转化。该框架已自2025年8月起在京东平台部署，通过线上A/B测试验证了其在提升搜索相关性和用户转化率方面的有效性。

6. S2CDR: Smoothing-Sharpening Process Model for Cross-Domain Recommendation

🔗 原文： https://arxiv.org/abs/2603.02725

🏷️ 来源： 🤝 产学合作 | Chinese Academy of Sciences, UCAS, Alibaba

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出基于平滑-锐化过程的跨域推荐模型S2CDR，无需训练即可显著提升冷启动性能。

📝 摘要： 本文为缓解用户冷启动问题，提出了一种新颖的基于平滑-锐化过程的跨域推荐模型S2CDR。该模型采用“腐蚀-恢复”架构，其平滑过程在物品-物品相似图上应用热方程，以无噪声方式捕获跨域物品相关性并过滤高频噪声以提取用户内在偏好；锐化过程则迭代恢复冷启动用户的未知交互。该方法无需训练，在三个真实跨域推荐场景上的实验表明，其性能显著优于现有SOTA方法。

7. Reproducing and Comparing Distillation Techniques for Cross-Encoders

🔗 原文： https://arxiv.org/abs/2603.03010

🏷️ 来源： 🎓 学术界 | Sorbonne Université, CNRS, ISIR, Sinequa by ChapsVision, University of Toulouse, IRIT

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 系统比较交叉编码器蒸馏技术，发现相对比较目标函数优于点状基线。

📝 摘要： 本文对信息检索中交叉编码器的知识蒸馏技术进行了系统的复现与比较研究，涵盖了从LLM教师蒸馏、交叉编码器教师集成蒸馏到其他监督目标等多种策略，并在BERT、RoBERTa、DeBERTa-v3、ModernBERT等多种骨干网络上进行了跨领域评估。实验结果表明，强调相对比较的目标函数（如成对的MarginMSE和列表式的InfoNCE）在所有骨干网络和评估设置中均一致优于点状基线，且目标函数选择带来的增益可与扩展骨干网络架构相媲美。

8. Proactive Guiding Strategy for Item-side Fairness in Interactive Recommendation

🔗 原文： https://arxiv.org/abs/2603.03094

🏷️ 来源： 🎓 学术界 | Chinese Academy of Sciences, University of Technology Sydney, University of Science and Technology of China

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出分层强化学习框架HRL4PFG，渐进式引导用户偏好向长尾物品转移，提升交互推荐公平性。

📝 摘要： 为解决交互式推荐中长尾物品的公平曝光问题，本文提出了HRL4PFG框架。与直接插入长尾物品的被动方法不同，该框架采用分层强化学习，通过宏观过程基于多步反馈生成公平引导目标，微观过程根据目标和实时用户偏好微调推荐，从而主动、渐进地引导用户偏好向长尾物品转移，在保证用户满意度的同时提升物品侧公平性。在模拟交互推荐环境中的实验验证了其有效性。

9. AlphaFree: Recommendation Free from Users, IDs, and GNNs

🔗 原文： https://arxiv.org/abs/2603.02653

🏷️ 来源： 🎓 学术界 | Soongsil University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出无用户嵌入、无ID、无GNN的推荐方法，性能提升显著且内存减少69%。

📝 摘要： 本文挑战了推荐系统对用户嵌入、物品ID和GNN的固有依赖，提出了AlphaFree方法。该方法通过动态推断偏好实现“无用户嵌入”，利用预训练语言模型的语言表示替代原始ID实现“无ID”，并通过相似物品增强和对比学习捕获协同信号而“无GNN”。在多个真实数据集上的实验表明，AlphaFree性能显著优于基线，在高维语言表示下GPU内存使用最高可减少69%，为设计更轻量、泛化能力更强的推荐模型提供了新思路。