type
status
date
slug
summary
tags
category
icon
password
priority
Section 1: 📊 Trend Analysis
- 🔥 从短期指标到长期价值的优化:今日论文显示,推荐系统的优化目标正从短期转化(如点击、匹配数)向长期用户价值(LTV)和留存(Retention)深化。无论是双边匹配平台直接优化留存,还是通过数据增强提升模型泛化能力,都体现了对业务长期健康度的关注。
- 💡 利用高级语义理解解决数据问题:数据质量(稀疏性、噪声)是推荐系统的核心挑战。今日论文展示了两种利用高级语义理解(PLM)或模型自身能力来解决该问题的思路:一是利用PLM的语义相似度进行样本去噪,二是通过模型递归自生成高质量数据,这为数据工程提供了新范式。
- 🤖 模型的自增强与闭环进化:推荐模型不再仅仅是静态的学习器,而是具备了自我改进的潜力。通过设计合理的生成与筛选机制,模型可以生成用于自我训练的高质量数据,形成“训练-生成-再训练”的增强闭环,为解决数据稀疏问题提供了可扩展的路径。
Section 2: 📋 今日速览
今日速览 |
CyberAgent & 东工大 提出留存优化双边匹配算法,提升用户留存 ↗ |
中科大 & 华为 提出递归自改进推荐框架,NDCG@10提升达5.6% ↗ |
哥伦比亚大学 利用PLM语义相似度进行样本去噪,AUC提升最高2.2% ↗ |
Section 3: 📰 Daily Digest
1. Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching
🔗 原文: https://arxiv.org/abs/2602.15752v1
🏷️ 来源: 🤝 产学合作 | CyberAgent, Institute of Science Tokyo, Cornell University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 将双边匹配的优化目标从匹配数/公平性转向用户留存,提出高效算法MRet,在真实约会数据上验证有效。
📝 摘要: 本文针对在线约会等双边匹配平台,指出传统优化匹配数或公平性的目标与业务根本目标(用户留存)存在偏差。为此,作者提出一种新的动态学习排序算法MRet,其核心是建模每个用户的个性化留存曲线,并将NP-hard的联合留存优化问题转化为可高效求解的排序问题,从而将稀缺的匹配机会分配给能带来最大总留存提升的用户对。在真实的大规模在线约会数据集上验证了其提升留存的有效性,为依赖订阅收入的平台提供了从长期价值出发的匹配新思路。
2. Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control
🔗 原文: https://arxiv.org/abs/2602.15659v1
🏷️ 来源: 🤝 产学合作 | USTC, Huawei
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出递归自改进推荐框架,通过模型自身生成高质量数据,理论证明其作为隐式正则化器,实验效果显著。
📝 摘要: 为解决推荐系统数据稀疏的根本瓶颈,本文提出一种递归自改进(RSIR)框架。该框架让模型自身通过“有界探索”生成新的用户交互序列,并利用“保真度控制”机制筛选出高质量数据,用于迭代训练后续模型。理论分析证明该过程充当了数据驱动的隐式正则化器,能平滑优化景观。实验在多个序列推荐模型(如SASRec)和数据集上验证了其有效性,NDCG@10提升最高达5.6%,且方法模型无关,为缓解数据稀疏问题提供了一条可扩展的新路径。
3. Semantics-Aware Denoising: A PLM-Guided Sample Reweighting Strategy for Robust Recommendation
🔗 原文: https://arxiv.org/abs/2602.15359v1
🏷️ 来源: 🎓 学术界 | Columbia University, University of Michigan, Carnegie Mellon University
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 利用PLM语义相似度对训练样本进行软加权,简单有效地缓解点击噪声问题。
📝 摘要: 针对点击反馈中的噪声(如误点击)问题,本文提出一种简单有效的语义感知去噪(SAID)框架。该方法利用预训练语言模型(PLM)编码用户历史兴趣与目标物品的文本描述,计算语义相似度,并将其转化为样本权重以调制训练损失,从而降低语义不一致的噪声点击的影响。该方法不改变主干推荐模型架构,易于落地。在MovieLens和Amazon-Book数据集上的实验表明,其能稳定提升模型性能(AUC最高提升2.2%),并在高噪声场景下表现出更好的鲁棒性。