推荐算法日报 - 2026-02-24

type

status

date

slug

summary

Section 1: 📊 Trend Analysis

🔥 工业界聚焦数据与特征工程的可信度：今日多篇论文反映出工业界对推荐系统底层数据与特征工程环节的深度关注。从华为的FairFS解决特征选择偏差，到Sber AI的SplitLight审计数据划分，核心都在于提升模型训练与评估的可靠性、可复现性及线上收益的可预测性，体现了工业实践从“模型创新”向“工程精进”的务实转向。

💡 LLM与推荐系统的深度融合探索：LLM与推荐系统的结合正从简单的特征增强或重排序，向更本质的范式演进。McGill等机构提出的“Promptable Recommendation”新范式，旨在让传统推荐模型原生理解自然语言指令，代表了提升系统交互性与可控性的重要方向，为LLM与推荐信号的深度融合提供了新思路。

📈 多目标与去偏技术的持续整合：在精排领域，多目标优化、分数校准与反事实去偏等技术正被更系统地整合。如CaliCausalRank框架所示，将训练时校准、约束优化与鲁棒反事实估计统一设计，以应对广告场景中复杂的效用最大化与偏差问题，是当前学术研究的一个清晰脉络。

Section 2: 📋 今日速览

今日速览

华为诺亚提出解决特征选择三大偏差的FairFS框架，线上ECPM+1.35% 延迟-20% ↗

Sber AI 发布推荐数据集审计工具SplitLight，量化数据选择对模型排名的影响 ↗

McGill等校提出Promptable Recommendation新范式，让传统排序模型原生支持自然语言指令 ↗

哥伦比亚大学等提出整合校准、约束与反事实学习的多目标广告排序框架CaliCausalRank ↗

吉林大学提出基于社区内流行度的负采样策略ICPNS，在GNN模型上取得稳定提升 ↗

Section 3: 📰 Daily Digest

1. FairFS: Addressing Deep Feature Selection Biases for Recommender System

🔗 原文： https://arxiv.org/abs/2602.20001v1

🏷️ 来源： 🤝 产学合作 | Huawei, USTC

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 华为诺亚提出解决特征选择三大偏差的FairFS框架，线上AB验证有效，是扎实的工业实践。

📝 摘要： 本文由华为诺亚方舟实验室主导，旨在解决工业推荐系统中深度特征选择方法存在的三大偏差问题：层偏差、基线偏差和近似偏差。提出的FairFS框架通过在所有非线性层正则化特征重要性、设计平滑基线特征以及采用聚合近似方法来缓解这些偏差，从而更准确地估计特征重要性。在公开数据集及自研广告数据集上的实验验证了其有效性，线上A/B测试显示，在CTR场景下剔除23%噪声特征后，实现了ECPM提升1.35%且服务延迟降低20%，该框架已成为平台新的特征选择基线。

2. SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits

🔗 原文： https://arxiv.org/abs/2602.19339v1

🏷️ 来源： 🏭 工业界 | Sber AI Lab

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 工业界出品的数据审计工具包，系统化解决推荐离线评估的复现性与可比性痛点，实用价值高。

📝 摘要： 本文来自Sber AI Lab，针对推荐系统离线评估中数据预处理和划分选择不透明、难以复现的关键痛点，开发了一个开源审计工具包SplitLight。该工具能够量化分析数据集的统计特性、重复消费模式、时间戳异常，并诊断划分方案的有效性（如时间泄漏、冷启动暴露）。通过详尽的案例研究，论文展示了在六个公开数据集上，不同的数据选择（如处理重复项、过滤冷启动项）可导致模型性能排名发生颠覆性变化（NDCG@10变化高达60%），为提升研究与实践的严谨性提供了有力的方法论和工具支持。

3. Give Users the Wheel: Towards Promptable Recommendation Paradigm

🔗 原文： https://arxiv.org/abs/2602.18929v1

🏷️ 来源： 🎓 学术界 | McGill, MILA

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 提出让传统推荐模型原生理解自然语言指令的新范式，融合架构和训练策略设计精巧，实验证明其有效性。

📝 摘要： 本文提出“Promptable Recommendation”新范式，旨在让传统序列推荐模型能够原生地理解和响应用户的自然语言指令（如“推荐适合孩子的动画片”），而无需放弃基于历史行为的协同过滤信号。为此，作者设计了DPR框架，通过一个解耦的MoE融合架构来对齐语义与协同信号，并采用三阶段渐进式训练策略来缓解梯度冲突与模态差异。实验表明，该框架在提示引导任务上显著超越LLM-as-a-recommender和LLM-reranking基线（如在ML1M数据集上NDCG@10相对提升71.84%），同时保持了标准序列推荐任务的竞争力，为推荐系统的交互性演进提供了新思路。

4. CaliCausalRank: Calibrated Multi-Objective Ad Ranking with Robust Counterfactual Utility Optimization

🔗 原文： https://arxiv.org/abs/2602.18786v1

🏷️ 来源： 🎓 学术界 | Columbia University, University of Wisconsin-Madison

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 整合训练时校准、约束优化与反事实学习的多目标广告排序框架，方法系统但缺乏线上验证。

📝 摘要： 本文针对广告精排中的多目标优化、分数校准不一致及位置偏差问题，提出了一个统一的CaliCausalRank框架。该框架创新性地将分数校准作为训练目标而非后处理步骤，并整合了拉格朗日松弛法进行约束优化，同时采用方差缩减的反事实估计器（如SNIPS）来纠正点击日志中的位置偏差。在Criteo和Avazu数据集上的实验表明，相比最佳基线，该框架实现了AUC相对提升1.1%、校准误差降低31.6%以及效用增益3.2%。尽管方法设计系统且扎实，但其评估部分依赖模拟设置，缺乏线上验证，限制了工业置信度。

5. Towards Reliable Negative Sampling for Recommendation with Implicit Feedback via In-Community Popularity

🔗 原文： https://arxiv.org/abs/2602.18759v1

🏷️ 来源： 🎓 学术界 | Jilin University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出基于用户社区内流行度的负采样策略，在GNN模型上取得稳定提升，方法简单有效。

📝 摘要： 本文研究隐式反馈下的负采样问题，提出了一种基于社区内流行度的采样策略ICPNS。其核心洞察是物品曝光由潜在的用户社区驱动，因此在一个用户所属社区内流行但该用户未交互的物品，更可能是真实的负样本。方法采用两阶段训练：先预训练获得用户嵌入并进行聚类以识别社区，再根据物品在社区内的平滑流行度分布进行负采样。实验在四个基准数据集上验证了ICPNS在图神经网络推荐模型（如LightGCN）上相比随机采样、全局流行度采样等基线能带来一致且显著的性能提升，提供了一种简单有效的负样本工程方案。