推荐算法日报 - 2026-03-05

type

Post

status

Published

date

Mar 5, 2026 03:32

slug

daily-report-2026-03-05

summary

工业级Transformer排序系统优化：今日多篇工业界论文聚焦于将Transformer架构深度适配并优化至推荐系统的排序阶段。核心挑战在于解决工业场景特有的高特征稀疏性、低标签密度和严苛的延迟要求。阿里巴巴的SORT和字节跳动的HAP分别从精排和粗排角度，通过请求中心样本组织、局部注意力、自适应计算预算分配等系统化设计，实现了业务指标显著提升与推理效率的同步优化，标志着Transformer在工业推荐中从“可用”迈向“高效可用”的新阶段。; 多阶段推荐中的精细化样本与计算管理：推荐系统多阶段

Section 1: 📊 Trend Analysis

🔥 工业级Transformer排序系统优化：今日多篇工业界论文聚焦于将Transformer架构深度适配并优化至推荐系统的排序阶段。核心挑战在于解决工业场景特有的高特征稀疏性、低标签密度和严苛的延迟要求。阿里巴巴的SORT和字节跳动的HAP分别从精排和粗排角度，通过请求中心样本组织、局部注意力、自适应计算预算分配等系统化设计，实现了业务指标显著提升与推理效率的同步优化，标志着Transformer在工业推荐中从“可用”迈向“高效可用”的新阶段。

💡 多阶段推荐中的精细化样本与计算管理：推荐系统多阶段级联架构的优化重点，正从单一模型性能转向对样本异质性和计算资源的精细化治理。字节跳动的HAP框架揭示了粗排阶段混合样本导致的梯度冲突问题，并提出分层优化策略。Bilibili的重排工作则通过统一生成与评估网络来平衡多目标与约束。这反映出工业界在模型效果逼近瓶颈时，开始深入挖掘数据流和计算图本身的优化潜力，以实现更高效的系统级收益。

🔬 学术界聚焦前沿问题与安全对齐：学术界研究持续探索推荐系统的前沿与边界问题，如利用扩散模型净化用户状态以提升强化学习推荐的公平性、解决共享账户序列推荐中的行为解耦、构建LLM Agent推荐基准，以及确保对话式推荐系统的个性化安全。这些工作虽然在工业验证上有所欠缺，但为推荐系统的长期发展（如多模态理解、Agent生态、价值对齐）提供了重要的理论方法、问题定义和基准数据集。

Section 2: 📋 今日速览

今日速览

阿里巴巴提出SORT排序Transformer，线上订单+6.35%且延迟减半、吞吐翻倍 ↗

字节跳动提出粗排异质性框架HAP，线上用户时长+0.4%且计算成本不变 ↗

Bilibili 提出约束感知生成式重排，统一生成与评估网络提升收入与参与度 ↗

中科院等用扩散模型净化用户状态，结合分层RL平衡推荐效用与公平性 ↗

重庆大学等提出两阶段框架解决共享账户序列推荐，MRR@5相对提升12.56% ↗

悉尼科大等构建首个LLM Agent推荐基准AgentSelect，含11万+查询与25万+交互 ↗

香港大学等提出类别引导注意力MoE模型CAMMSR，实现多模态序列推荐自适应融合 ↗

UIUC等提出对话式推荐安全对齐框架SafeCRS，安全违规率降低96.5% ↗

上海财经大学提出BD-Merging框架，通过证据学习提升模型合并的鲁棒性 ↗

Télécom Paris 提出k-hop公平性概念，扩展图链接预测公平性至多跳邻域 ↗

Section 3: 📰 Daily Digest

1. SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders

🔗 原文： https://arxiv.org/abs/2603.03988

🏷️ 来源： 🏭 工业界 | Alibaba

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 阿里巴巴提出SORT排序Transformer，线上A/B测试实现业务指标显著提升同时延迟减半、吞吐翻倍。

📝 摘要： 本文针对Transformer应用于工业级排序模型时面临的高特征稀疏性和低标签密度挑战，提出了SORT模型。该模型通过请求中心样本组织、局部注意力、查询剪枝和生成式预训练等一系列优化，并改进了Token化、MHA和FFN模块以稳定训练、扩大容量。在系统层面，其训练系统优化将模型FLOPs利用率提升至22%。线上A/B测试在电商场景中取得了订单+6.35%、买家+5.97%、GMV+5.47%的显著业务提升，同时实现了延迟降低44.67%、吞吐量提升121.33%的卓越效率优化。

2. Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems

🔗 原文： https://arxiv.org/abs/2603.03770

🏷️ 来源： 🏭 工业界 | ByteDance

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 字节跳动提出粗排样本异质性解决方案HAP，线上提升用户时长0.4%，计算成本不变。

📝 摘要： 本文指出，粗排阶段混合来自召回、精排和曝光反馈的异质样本会导致梯度冲突，使困难样本主导训练而简单样本利用不足。为此，提出了异质性感知自适应粗排框架HAP。该框架通过冲突敏感采样和定制化损失设计来缓解梯度冲突，并自适应地为不同难度的候选分配计算预算：对简单候选使用轻量模型保证覆盖，对困难候选启用更强模型以维持精度。此方法已在字节跳动Toutiao生产系统部署9个月，在计算成本不变的前提下，实现了用户使用时长提升0.4%和活跃天数提升0.05%的线上收益。

3. Constraint-Aware Generative Re-ranking for Multi-Objective Optimization in Advertising Feeds

🔗 原文： https://arxiv.org/abs/2603.04227

🏷️ 来源： 🏭 工业界 | Bilibili

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： Bilibili提出约束感知生成式重排框架，统一生成与评估网络，线上A/B测试提升收入与用户参与度。

📝 摘要： 本文针对广告信息流重排中需同时最大化平台收入和保证用户体验的约束组合优化问题，提出了一种约束感知的生成式重排框架。该方法将约束优化转化为有界神经解码问题，创新性地将序列生成与奖励评估统一到单一网络中，避免了传统方法中生成器与评估器分离带来的高延迟问题。此外，框架引入了约束感知的奖励剪枝技术，将约束满足直接整合到解码过程中以高效生成最优序列。在大规模工业信息流场景的在线A/B测试中，该方法在满足严格延迟要求的同时，有效提升了平台收入和用户参与度。

4. Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

🔗 原文： https://arxiv.org/abs/2603.03820

🏷️ 来源： 🎓 学术界 | Chongqing Institute of Green and Intelligent Technology, University of Chinese Academy of Sciences, City University of Hong Kong

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出DSRM-HRL框架，用扩散模型净化用户状态，结合分层强化学习平衡推荐效用与公平性。

📝 摘要： 本文认为，交互式推荐中准确性与公平性的持久冲突根源在于被流行度偏差和曝光偏差污染的用户状态误导了RL智能体。为此，提出了DSRM-HRL框架，将公平性推荐重新定义为潜在状态净化问题。该框架首先引入基于扩散模型的去噪状态表示模块，从噪声交互历史中恢复低熵的潜在偏好流形。在此基础上，采用分层强化学习智能体进行解耦决策：高层策略调控长期公平轨迹，低层策略在这些动态约束下优化短期用户参与度。在高保真模拟器上的实验表明，该方法能有效打破“富者愈富”的反馈循环，在推荐效用和曝光公平性之间达到更优的帕累托前沿。

5. DisenReason: Behavior Disentanglement and Latent Reasoning for Shared-Account Sequential Recommendation

🔗 原文： https://arxiv.org/abs/2603.03782

🏷️ 来源： 🎓 学术界 | Chongqing University, Chongqing University of Technology, University of Leicester

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出两阶段框架解决共享账户序列推荐，频域行为解耦+潜在用户推理，在基准数据集上显著提升效果。

📝 摘要： 本文针对共享账户序列推荐中潜在用户数量不固定且难以推断的问题，提出了DisenReason方法。该方法采用两阶段推理框架：第一阶段从频域视角进行行为解耦，生成一个统一、集体的账户行为表示；第二阶段以此表示为枢纽，进行潜在用户推理，将推断用户数量的问题转化为生成一系列中间嵌入。该方法在四个基准数据集上 consistently 优于现有最优基线，实现了MRR@5相对提升12.56%，Recall@20相对提升6.06%的效果。

6. AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

🔗 原文： https://arxiv.org/abs/2603.03761

🏷️ 来源： 🎓 学术界 | University of Technology Sydney, Rutgers University, University of New South Wales

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 首个统一的LLM Agent推荐基准，为Agent生态系统提供可复现的数据和评估基础。

📝 摘要： 本文针对LLM Agent生态中缺乏系统化选择方法的问题，提出了AgentSelect基准，将Agent选择重构为叙事查询到Agent的推荐任务。该基准系统性地整合了来自40多个源的异构评估数据，构建了包含超过11万查询、10万可部署Agent和25万交互记录的统一数据集，涵盖纯LLM、纯工具和组合型Agent。分析揭示了从密集头部重用到长尾、近一次性监督的机制转变，表明基于内容的智能体能力匹配至关重要。实验还证明，基于AgentSelect训练的模型能够迁移到未见过的Agent市场并取得一致增益，为Agent推荐研究提供了首个可复现的基础设施。

7. CAMMSR: Category-Guided Attentive Mixture of Experts for Multimodal Sequential Recommendation

🔗 原文： https://arxiv.org/abs/2603.04320

🏷️ 来源： 🎓 学术界 | The University of Hong Kong, Beijing Institute of Technology, Carnegie Mellon University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出类别引导的注意力专家混合模块，实现多模态序列推荐的自适应融合。

📝 摘要： 本文针对多模态序列推荐中用户对模态的偏好动态变化且模态间存在协同效应的问题，提出了CAMMSR模型。其核心是类别引导的注意力专家混合模块，该模块从多视角学习专业化的物品表示，并显式建模模态间的协同效应，通过一个辅助的类别预测任务来动态引导模态权重的分配，实现多模态信号的自适应融合。此外，模型设计了模态交换对比学习任务，通过序列级增强来提升跨模态表示的对齐。在四个公开数据集上的实验表明，CAMMSR consistently 优于现有最优基线，验证了其在实现自适应、协同、以用户为中心的多模态序列推荐方面的有效性。

8. SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

🔗 原文： https://arxiv.org/abs/2603.03536

🏷️ 来源： 🤝 产学合作 | University of Illinois at Chicago, University of Illinois at Urbana-Champaign, Amazon

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出LLM对话式推荐系统的个性化安全对齐框架，安全违规率降低96.5%。

📝 摘要： 本文首次形式化并解决了LLM对话式推荐系统中的个性化安全问题，即推荐可能违反从对话中隐含推断出的用户特定安全约束。为此，作者构建了SafeRec基准数据集用于系统评估，并提出了SafeCRS安全感知训练框架。该框架整合了安全监督微调与安全组奖励解耦归一化策略优化，以联合优化推荐质量和个性化安全对齐。在SafeRec上的大量实验表明，SafeCRS相对于最强的推荐质量基线，将安全违规率降低了高达96.5%，同时保持了有竞争力的推荐质量。

9. BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

🔗 原文： https://arxiv.org/abs/2603.03920

🏷️ 来源： 🎓 学术界 | Shanghai University of Finance and Economics

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出BD-Merging框架，通过证据学习和对比学习提升模型合并的鲁棒性，适用于分布偏移场景。

📝 摘要： 本文针对模型合并方法在测试时分布偏移下可靠性不足的问题，提出了BD-Merging框架。该框架首先引入联合证据头来学习统一标签空间上的不确定性，以捕获模型合并中的跨任务语义依赖。基于此，提出了邻接差异评分来量化相邻样本间的证据对齐程度。最后，在ADS的引导下，采用差异感知对比学习机制，通过对齐一致样本和分离冲突样本来优化合并后的表示。结合通用的无监督学习，该过程训练出一个去偏的路由器，能够基于每个样本自适应分配任务特定或层特定的权重，从而有效缓解分布偏移带来的负面影响。

10. k-hop Fairness: Addressing Disparities in Graph Link Prediction Beyond First-Order Neighborhoods

🔗 原文： https://arxiv.org/abs/2603.03867

🏷️ 来源： 🎓 学术界 | Télécom Paris

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出k-hop公平性概念，扩展图链接预测公平性评估至多跳邻域，提供预处理和后处理缓解策略。

📝 摘要： 本文指出，现有图链接预测中的公平性研究主要关注节点间的一阶连接，忽略了敏感群体内部在多跳邻域上可能存在的差异。为此，提出了k-hop公平性这一结构性公平概念，通过预测公平性和结构偏差指标来形式化评估基于图中节点距离的条件差异，并提出了预处理和后处理的缓解策略。在标准链接预测基准上的实验揭示了模型在不同k-hop上再现结构偏差的强烈倾向，以及图重连时不同跳数间结构偏差的相互依赖性。与现有公平链接预测基线相比，本文的后处理方法在k-hop性能与公平性的权衡上取得了更优的结果。