推荐算法日报 - 2026-05-06

type

Post

status

Published

date

May 6, 2026 05:00

slug

daily-report-2026-05-06

summary

频域分析与序列建模融合：今日多篇论文探索了在频域（FEDIN）或连续时间域（BST-CDSR）建模用户行为，以捕捉传统时序方法难以处理的周期性模式和兴趣衰减，为序列推荐提供了新的信号增强思路。; LLM 从“生成”走向“评估与攻击”：LLM 的应用场景从内容生成扩展到模型评估与安全测试。CRAFT 利用 LLM 生成对抗样本来攻击排序模型，而 BST-CDSR 则利用 LLM 提取时间语义，展示了 LLM 在推荐系统攻防与特征工程中的潜力。; ⚖️ 公平性与评估稳定性成为焦点：工业界和学术界均开

Section 1: 📊 Trend Analysis

🔥 频域分析与序列建模融合：今日多篇论文探索了在频域（FEDIN）或连续时间域（BST-CDSR）建模用户行为，以捕捉传统时序方法难以处理的周期性模式和兴趣衰减，为序列推荐提供了新的信号增强思路。

💡 LLM 从“生成”走向“评估与攻击”：LLM 的应用场景从内容生成扩展到模型评估与安全测试。CRAFT 利用 LLM 生成对抗样本来攻击排序模型，而 BST-CDSR 则利用 LLM 提取时间语义，展示了 LLM 在推荐系统攻防与特征工程中的潜力。

⚖️ 公平性与评估稳定性成为焦点：工业界和学术界均开始关注推荐系统的“软性”指标。PFA 提出了轻量级的后置公平性适配方案，而 STABLEVAL 则从评估方法论入手，通过建模标注者分歧来提升系统排名的稳定性，反映了领域对更鲁棒、更公平系统的追求。

Section 2: 📋 今日速览

今日速览

清华&腾讯提出频域滤波增强序列推荐FEDIN，降噪提升CTR ↗

合肥工大提出后置公平性适配框架PFA，无需重训模型 ↗

滑铁卢大学用LLM驱动黑盒对抗攻击CRAFT，有效操纵排名 ↗

北理工融合ODE与LLM实现时间感知跨域推荐BST-CDSR ↗

MIT&NYU 提出Pandora's Regret评分规则，优于Log Loss ↗

IBM 用异常检测实现多查询向量检索，思路新颖 ↗

悉尼大学统一对比学习统计理论，解释大负样本优势 ↗

Naver 研究MLM预训练对SPLADE模型微调的影响 ↗

UC Davis 建模标注分歧提升AI系统评估稳定性 ↗

Section 3: 📰 Daily Digest

1. FEDIN: Frequency-Enhanced Deep Interest Network for Click-Through Rate Prediction

🔗 原文： https://arxiv.org/abs/2605.01726

🏷️ 来源： 🤝 产学合作 | Tsinghua University, Tencent

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 频域滤波增强序列推荐，目标感知降噪提升CTR

📝 摘要： 针对序列推荐中用户兴趣的周期性模式难以捕捉、且时域行为数据噪声大的问题，本文提出频域增强深度兴趣网络（FEDIN）。核心创新在于一个关键发现：用户对正负目标物品的注意力分数在频域上呈现不同的谱熵分布，真实兴趣表现为低熵的集中谱模式。基于此，FEDIN引入频域分支，通过目标感知的频谱滤波机制来分离周期性兴趣信号。在三个公开数据集上的实验表明，FEDIN一致性地优于当前最先进的序列推荐基线，展现出更强的抗噪鲁棒性。该工作由清华与腾讯合作完成，方法新颖且实验全面，但缺少线上A/B实验报告，工业落地价值有待进一步验证。

2. Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment

🔗 原文： https://arxiv.org/abs/2605.01524

🏷️ 来源： 🎓 学术界 | Hefei University of Technology

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 轻量级后置公平性适配框架，无需重训模型。

📝 摘要： 针对推荐系统中内容提供者曝光公平性问题，本文提出后置公平性适配（PFA）框架。PFA的核心是一个轻量级的公平性适配器，它学习用户-物品嵌入的个性化分数调整，并将其注入原始排序分数以引导曝光分布，无需重训主模型。为解决全局KL散度优化忽视组间和组内结构差异的问题，论文设计了层次化曝光公平性对齐（HEFA），显式平衡组间和组内曝光差异，并联合优化可微的NDCG损失以保持排序质量。在三个公开数据集上，PFA在几乎不损失精度的前提下取得了显著的公平性提升。该方法为工业界提供了一种灵活、低成本的公平性干预方案，但缺乏线上部署验证。

3. Led to Mislead: Adversarial Content Injection for Attacks on Neural Ranking Models

🔗 原文： https://arxiv.org/abs/2605.01591

🏷️ 来源： 🎓 学术界 | University of Waterloo, University of Toronto

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： LLM驱动的黑盒对抗攻击框架，有效提升排名操纵效果。

📝 摘要： 本文揭示了神经排序模型（NRM）在面对对抗性操纵时的脆弱性，并提出CRAFT框架。CRAFT是一个由大语言模型（LLM）驱动的黑盒对抗攻击框架，通过检索增强生成和自优化生成对抗数据集，然后进行监督微调，最后通过偏好优化使生成内容与排名提升目标对齐。在MS MARCO、TREC DL 2019/2020等基准测试上，CRAFT显著优于现有基线，实现了更高的排名提升率和排名提升幅度，同时保持了文本流畅性和语义保真度。该攻击能有效迁移至跨编码器、嵌入和基于LLM的多种排序架构，凸显了现实检索系统的安全风险。虽然该工作主要针对信息检索，但其方法论对推荐系统的排序安全具有重要借鉴意义。

4. Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation

🔗 原文： https://arxiv.org/abs/2605.02369

🏷️ 来源： 🎓 学术界 | Beijing Institute of Technology, Xi'an Jiaotong University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 时间感知跨域序列推荐，融合ODE与LLM

📝 摘要： 针对跨域序列推荐中忽略领域特定交互频率和兴趣衰减速率，以及将语义偏好视为时不变的问题，本文提出BST-CDSR框架。该框架设计了一个行为偏好演化模块，利用神经常微分方程（ODE）对连续时间偏好进行建模，并引入事件驱动更新。同时，为捕捉时间感知的语义偏好，它利用大语言模型（LLM）和反事实扰动来提取鲁棒的时间语义。最后，通过时间偏好引导的域迁移模块自适应控制迁移权重，缓解负迁移。在真实数据集上的实验表明，BST-CDSR一致性地优于基线方法。该方法创新性地结合了ODE和LLM，但LLM部分依赖外部模型，且缺乏大规模系统验证。

5. Pandora's Regret: A Proper Scoring Rule for Evaluating Sequential Search

🔗 原文： https://arxiv.org/abs/2605.01936

🏷️ 来源： 🎓 学术界 | MIT, NYU

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 为序贯搜索场景设计严格适当的评分规则，优于Log Loss。

📝 摘要： 针对标准评分规则（如Log Loss）在序贯搜索场景中忽略竞争者排名、与搜索效用错配的问题，本文推导出Pandora's Regret。这是一种闭式、成对可加且严格适当的评分规则，既能激发真实概率，又能惩罚排名反转的误校准。该规则通过一个单参数Beta族平衡了对排名交换和概率幅度的惩罚，并具有期望搜索成本的决策理论基础。在597个MedMNIST模型上的实验表明，基于Pandora的指标比标准指标能更好地预测临床诊断成本。该工作为多分类场景下的决策理论评分规则构建提供了新思路，对推荐系统中评估指标的设计有理论启发意义。

6. Retrieval with Multiple Query Vectors through Anomalous Pattern Detection

🔗 原文： https://arxiv.org/abs/2605.01965

🏷️ 来源： 🎓 学术界 | IBM Research Africa, University of Galway

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 用异常检测模式实现多查询向量检索，思路新颖但验证不足。

📝 摘要： 针对复杂推理和检索任务需要多个查询向量的场景，本文提出一种基于异常模式检测的检索方法。该方法利用一组查询向量，识别出其中“异常”的维度子集，然后扫描向量数据库，检索出在这些维度上也呈现异常模式的向量。在图像、文本和表格数据集上的实验表明，使用更大的查询集（从1个增加到8个）能带来显著的检索性能提升。该方法思路新颖，将异常检测概念引入多查询向量检索，但缺乏与强基线（如聚合后单向量检索）的全面对比，且未在推荐系统场景验证，对推荐从业者的直接参考价值有限。

7. Statistical Consistency and Generalization of Contrastive Representation Learning

🔗 原文： https://arxiv.org/abs/2605.02116

🏷️ 来源： 🎓 学术界 | University of Sydney, Texas A&M University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 统一对比学习统计理论，解释大负样本优势。

📝 摘要： 本文为对比表示学习（CRL）建立了统一的统计学习理论。首先，证明了对比损失与最优排序在统计上是一致的，并建立了校准式不等式来量化对比风险与检索次优性之间的关系。其次，推导了监督和自监督对比目标的泛化界，分别为O(1/m + 1/√n)和O(1/√m + 1/√n)，其中m为负样本数，n为锚点数。这些界不仅解释了实践中大负样本集带来的优势，还揭示了m和n之间的显式权衡。在大规模视觉-语言模型上的实验验证了理论预测。该工作为理解对比学习的成功提供了坚实的理论基础，对推荐系统中广泛使用的对比学习范式具有重要的指导意义。

8. The Pre-Training Study of Expanded-SPLADE Models on Web Document Titles

🔗 原文： https://arxiv.org/abs/2605.01407

🏷️ 来源： 🏭 工业界 | Naver

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 研究MLM预训练对SPLADE模型微调的影响，发现通用语料和高学习率更有效。

📝 摘要： 本文系统研究了不同预训练数据集和配置对SPLADE系列模型（具体为Expanded-SPLADE）微调效果的影响。实验基于Naver内部的网页标题数据，主要发现有三点：第一，在通用语料上以较高学习率预训练的模型，尽管MLM准确率较低，但在微调后能取得更高的检索效果；第二，在严格剪枝设置下，这些模型表现出更高的检索成本和更长的倒排列表长度；第三，重复使用通用预训练数据集对检索效果影响不大。该工作为工业界如何选择预训练策略来优化SPLADE模型提供了实证指导，但方法创新性有限，且实验仅基于标题数据。

9. STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems

🔗 原文： https://arxiv.org/abs/2605.02122

🏷️ 来源： 🎓 学术界 | UC Davis

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 建模标注分歧提升AI系统评估稳定性

📝 摘要： 针对人工评估中标注者分歧导致系统排名不稳定的问题，本文提出STABLEVAL框架。该框架通过建模潜在的项目正确性和标注者特定的混淆模式，生成后验期望的项目得分和校准的系统级分数。与传统的多数投票或标签去噪方法不同，STABLEVAL专门设计用于稳定且不确定性感知的系统评估。在合成实验和多个真实人工标注基准上，STABLEVAL在标注者异质性和对抗噪声下，相比多数投票展现出更低的评分误差和更高的排名稳定性。该工作为推荐系统离线评估中如何处理人工标注的噪声和分歧提供了方法论支持，有助于提升评估结果的鲁棒性和可复现性。