推荐算法日报 - 2026-03-28

type

Post

status

Published

date

Mar 28, 2026 05:01

slug

daily-report-2026-03-28

summary

训练效率与成本优化：今日多篇论文聚焦于推荐系统开发中的效率瓶颈。从快手提出的持续数据集蒸馏（DIET）到针对LSR模型的GPU内核优化（Sparton），再到用线性复杂度算子（Hyena）替代注意力机制，核心目标都是降低大规模数据训练和迭代的算力与时间成本，这是工业界持续关注的核心痛点。; 稀疏与冷启动场景的表示学习：在数据稀疏的特定场景（如在线健康社区）和复杂的多行为推荐中，如何学习更鲁棒、更可解释的用户/物品表示是关键。今日论文通过引入伪标签辅助目标、因果干预与对比学习对齐等方法，旨在利用有

Section 1: 📊 Trend Analysis

🔥 训练效率与成本优化：今日多篇论文聚焦于推荐系统开发中的效率瓶颈。从快手提出的持续数据集蒸馏（DIET）到针对LSR模型的GPU内核优化（Sparton），再到用线性复杂度算子（Hyena）替代注意力机制，核心目标都是降低大规模数据训练和迭代的算力与时间成本，这是工业界持续关注的核心痛点。

💡 稀疏与冷启动场景的表示学习：在数据稀疏的特定场景（如在线健康社区）和复杂的多行为推荐中，如何学习更鲁棒、更可解释的用户/物品表示是关键。今日论文通过引入伪标签辅助目标、因果干预与对比学习对齐等方法，旨在利用有限或异构的信号，提升模型在冷启动和复杂行为模式下的泛化能力。

🤝 检索技术的精细化演进：在召回/检索领域，技术演进呈现出精细化与融合的趋势。华为的工作将注意力机制融入成熟的延迟交互框架（ColBERT），旨在更精细地捕捉相关性；而Sparton则从系统底层优化检索模型的训练效率。这表明检索技术正从宏观架构创新，转向微观层面的性能挖潜与工程优化。

Section 2: 📋 今日速览

今日速览

[Kuaishou] 提出持续数据集蒸馏DIET，压缩数据至1-2%，降低60倍迭代成本 ↗

[UMBC] 用伪标签辅助NCF，在极端稀疏的在线健康社区推荐中提升冷启动性能 ↗

[UvA等] 设计Sparton Triton内核优化LSR模型，实现4.8倍加速和内存降低一个数量级 ↗

[WHUT等] 提出HyenaRec，用多项式核替代注意力，在序列推荐中实现线性复杂度与6倍加速 ↗

[USTC等] 提出模型无关因果框架MCLMR，解决多行为推荐中的混杂效应与表示对齐问题 ↗

[Huawei] 提出ColBERT-Att，将注意力融入延迟交互框架，在多个检索基准上提升召回性能 ↗

Section 3: 📰 Daily Digest

1. DIET: Learning to Distill Dataset Continually for Recommender Systems

🔗 原文： https://arxiv.org/abs/2603.24958

🏷️ 来源： 🤝 产学合作 | Kuaishou, USTC

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 提出持续数据集蒸馏框架DIET，压缩训练数据至1-2%并降低60倍迭代成本，适用于大规模推荐系统开发。

📝 摘要： 本文针对大规模推荐系统中全量历史数据重复训练成本高昂、拖慢模型迭代的问题，提出了流式数据集蒸馏框架DIET。该方法将蒸馏数据集建模为可随流式数据演化的训练记忆，通过双层次优化框架进行阶段性更新，使其与长期训练动态保持一致。实验表明，DIET能将训练数据压缩至原始的1-2%，在保持与全量数据训练一致性能趋势的同时，将模型迭代成本降低高达60倍，且生成的蒸馏数据集在不同模型架构间具有良好的泛化性，为推荐系统开发提供了可扩展、可复用的数据基础。尽管方法创新性强且效果显著，但缺乏线上A/B实验验证是其当前的主要局限。

2. Pseudo Label NCF for Sparse OHC Recommendation: Dual Representation Learning and the Separability Accuracy Trade off

🔗 原文： https://arxiv.org/abs/2603.24750

🏷️ 来源： 🎓 学术界 | University of Maryland, Baltimore County

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出伪标签辅助的NCF方法，在极端稀疏的在线健康社区推荐中提升冷启动性能。

📝 摘要： 本文研究了在线健康社区（OHC）中用户交互极端稀疏场景下的推荐问题。通过扩展神经协同过滤（NCF）架构，引入一个基于调查问卷与支持组特征对齐的辅助伪标签目标，该方法能够学习双重嵌入空间：一个用于排序的主嵌入空间，另一个用于语义对齐的伪标签嵌入空间。在仅包含165名用户的小规模数据集上的冷启动实验表明，该方法能有效提升排序性能（例如MLP的HR@5从2.65%提升至5.30%），并产生更具可解释性的任务特定嵌入空间，同时揭示了嵌入可分性与排序准确性之间的权衡关系。这项工作为利用辅助信息解决极端稀疏和冷启动问题提供了思路，但尚未经过大规模工业场景的验证。

3. Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

🔗 原文： https://arxiv.org/abs/2603.25011

🏷️ 来源： 🎓 学术界 | University of Amsterdam, ISTI-CNR, University of Pisa, Johns Hopkins University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出Sparton Triton内核，优化LSR模型LM头，实现4.8倍加速和内存降低一个数量级。

📝 摘要： 针对学习型稀疏检索（LSR）模型（如Splade）中语言模型（LM）头因巨大词汇表而产生内存瓶颈的问题，本文提出了一个高效融合的Triton GPU内核Sparton。该内核将分块矩阵乘法、ReLU、Log1P和序列维度上的最大池化操作融合进单个内核，并通过早期在线归约避免在内存中物化完整的对数矩阵。独立测试显示，Sparton相比PyTorch基线实现了最高4.8倍的加速和一个数量级的峰值内存降低。集成到Splade模型中后，能够支持更大的批次大小（最高提升26倍）和更快的训练速度（最高提升2.5倍），且不损失模型效果。这项工作为部署大规模词汇表的LSR模型提供了关键的工程优化方案，属于系统工程层面的重要贡献。

4. Hyena Operator for Fast Sequential Recommendation

🔗 原文： https://arxiv.org/abs/2603.25027

🏷️ 来源： 🎓 学术界 | Wuhan University of Technology, Wuhan Textile University, University of Southern Queensland

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出HyenaRec，用多项式核参数化替代注意力，实现线性复杂度，在序列推荐中兼顾准确性和效率。

📝 摘要： 为克服基于注意力的序列推荐模型二次计算复杂度的瓶颈，本文探索了亚二次算子Hyena在推荐领域的应用，并提出了HyenaRec模型。该模型使用勒让德正交多项式参数化卷积核来建模长期时序依赖，并结合门控机制捕捉细粒度的短期行为爆发，形成了一种能平衡全局演化与局部兴趣的混合架构。在多个真实数据集上的实验表明，HyenaRec在排序准确性上 consistently 优于注意力、循环神经网络等基线，同时训练速度显著提升（最高达6倍），在长序列场景下效率优势尤为明显。这项工作为序列推荐提供了一种兼具表达能力和线性复杂度的新思路，但尚未在工业级大规模系统中得到验证。

5. MCLMR: A Model-Agnostic Causal Learning Framework for Multi-Behavior Recommendation

🔗 原文： https://arxiv.org/abs/2603.25126

🏷️ 来源： 🤝 产学合作 | USTC, HKUST(GZ), RMIT, iFLYTEK

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出模型无关的因果学习框架MCLMR，解决多行为推荐中的混杂效应和表示对齐问题。

📝 摘要： 本文针对多行为推荐（MBR）中存在的用户行为习惯和物品多行为分布带来的混杂效应、异构行为信息聚合困难以及跨行为表示语义对齐失真等挑战，提出了一个模型无关的因果学习框架MCLMR。该框架首先构建因果图以建模混杂效应并进行干预以获得无偏偏好估计；在此基础上，采用基于混合专家（MoE）的自适应聚合模块动态融合辅助行为信息，并利用偏差感知的对比学习模块对齐跨行为表示。在三个真实数据集上的实验表明，MCLMR能显著提升多种基线模型的性能，验证了其有效性和通用性。该方法为多行为推荐提供了因果推断与表示学习结合的新视角，属于典型的学术研究创新。

6. ColBERT-Att: Late-Interaction Meets Attention for Enhanced Retrieval

🔗 原文： https://arxiv.org/abs/2603.25248

🏷️ 来源： 🏭 工业界 | Huawei

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 华为提出ColBERT-Att，将注意力机制融入延迟交互框架，在多个检索基准上提升召回性能。

📝 摘要： 本文指出，经典的延迟交互检索模型ColBERT未能利用查询和文档术语的注意力权重信息，而这些权重直观上能反映术语间相似性的“重要性”。为此，华为提出了ColBERT-Att方法，显式地将注意力机制集成到延迟交互框架中，以增强检索性能。在MS-MARCO以及一系列BEIR和LoTTE基准数据集上的实证评估表明，该方法能有效提升召回准确率。这项工作是对成熟检索框架的精细化改进，通过引入注意力权重来更细致地刻画相关性，但其创新属于增量性质，且目前主要在学术界基准上进行验证，缺乏工业部署的线上效果报告。