type
status
date
slug
summary
tags
category
icon
password
priority
Section 1: 📊 Trend Analysis
- 🔥 从几何视角诊断与优化模型:今日多篇论文从表示空间的几何结构入手,诊断并解决推荐系统的核心问题。例如,有工作从几何角度揭示了BPR损失函数如何系统性地将物品嵌入排列在“流行度方向”上,从而内在地导致流行度偏差。另一篇论文则利用对比学习中的几何分散度来量化数据样本的价值。这表明,将模型行为(如偏差、泛化能力)与嵌入空间的几何特性(如方向、距离、角度)联系起来,正成为一个深刻且有效的分析范式。
- 💡 大模型能力的“蒸馏”与“瘦身”:大语言模型(LLM)在推荐中的应用呈现出两种清晰的路径。一是将其强大的语义理解能力“蒸馏”为静态的、高质量的语义特征(如用于构建对比学习的正负样本),以增强现有推荐模型的表示能力,而非直接用于推理。二是针对LLM作为召回编码器时面临的效率瓶颈,进行针对性的“瘦身”研究,例如发现并剪枝检索任务中冗余的MLP层,旨在保留其语义能力的同时大幅提升推理效率。
- 🔧 面向效率的表示学习与系统优化:在召回和精排阶段,对效率的追求催生了多种创新。一方面,通过引入分组信息、设计尺度不变损失等方式,学习更紧凑、更具判别力的二进制哈希码(语义ID),在保证检索速度的同时提升稀疏和长尾场景下的精度。另一方面,在模型层面,通过分析参数冗余、设计轻量级交叉网络结构,直接优化CTR等精排模型的训练和推理开销。这反映了工业界对效果与效率平衡的持续关注。
Section 2: 📰 Daily Digest
1. Rethinking Popularity Bias in Collaborative Filtering via Analytical Vector Decomposition
🏷️ 来源: 🤝 产学合作 | University of Science and Technology of China, iFLYTEK
⭐ 评分: 4/5
📝 摘要: 本文从一个新颖的几何视角,揭示了协同过滤(CF)模型中流行度偏差的根本成因:它并非外部混杂因素,而是标准训练目标(BPR损失)优化过程中的固有几何产物。作者通过理论证明,BPR会迫使物品嵌入沿着一个与流行度线性相关的“流行度方向”排列,导致用户嵌入陷入表达偏好与对抗流行度的两难境地。为此,论文提出了一个轻量级、普适的“方向分解与校正”(DDC)框架,通过非对称的梯度更新,在源头将偏好与流行度解耦。实验表明,DDC能快速收敛,在多个数据集上显著超越现有去偏方法,为从根本上解决这一经典问题提供了新思路,值得深入阅读。
2. Don't Pay Attention, PLANT It: Pretraining Attention via Learning-to-Rank
🏷️ 来源: 🎓 学术界 | Northeastern University
⭐ 评分: 4/5
📝 摘要: 针对极端多标签分类(可视为标签推荐)中长尾标签学习困难的问题,本文提出了一种通用的注意力初始化策略PLANT。其核心思想是,利用互信息(MIG)计算标签与文本token的全局相关性作为监督信号,通过一个学习排序(L2R)的目标函数,预先为模型的注意力模块“种植”有针对性的权重。这种即插即用的方法可与多种LLM主干(如LLaMA、Mistral)无缝集成。实验证明,PLANT能显著提升模型性能,尤其在罕见标签上的提升幅度巨大,为利用先验知识优化模型关键模块的初始化提供了新范式。
3. IGDMRec: Behavior Conditioned Item Graph Diffusion for Multimodal Recommendation
🏷️ 来源: 🎓 学术界 | Xidian University, Carleton University
⭐ 评分: 4/5
📝 摘要: 多模态推荐中,基于模态相似性构建的语义物品图往往包含噪声(语义相关但行为不相关)。本文提出IGDMRec,创新性地利用扩散模型来解决此问题。该方法以用户行为共现图为条件,引导扩散过程对初始语义图进行去噪,生成一个与真实偏好更对齐的图结构。此外,还通过对比学习利用原始图和去噪图来增强物品表示。在多个多模态数据集上的实验表明,该方法能有效提升推荐性能。其将生成式模型(扩散)用于图结构优化的思路,对处理图数据噪声具有借鉴意义。
4. Collaborative Group-Aware Hashing for Fast Recommender Systems
🏷️ 来源: 🎓 学术界 | Charles Darwin University, A*STAR
⭐ 评分: 4/5
📝 摘要: 为了在海量数据中实现快速召回,哈希技术因其高效的位运算而备受关注,但在稀疏场景下精度不足。本文提出分组感知哈希方法CGAH,通过挖掘用户和物品的隐含分组信息来学习更有效的哈希码。具体而言,模型学习每个实体对各分组的“亲和度”,并将最终偏好预测建模为分组亲和度向量与哈希码相似度向量的内积。这种方法使得学到的二进制码能更好地保留原始连续空间中的语义结构,从而在亚马逊、Yelp等数据集上,尤其是在高稀疏度下,显著超越了现有的哈希推荐方法。
5. Discrete Scale-invariant Metric Learning for Efficient Collaborative Filtering
🏷️ 来源: 🎓 学术界 | Charles Darwin University, University of Electronic Science and Technology of China
⭐ 评分: 4/5
📝 摘要: 本文针对长尾/不平衡物品类别的推荐问题,提出了一种离散的尺度不变度量学习方法(DSIML)。与使用固定绝对距离边界的传统方法不同,DSIML在汉明空间中定义了基于角度的尺度不变边距,这对类内方差差异大的物品更为鲁棒。该方法将用户和物品映射为二进制哈希码,以实现高效检索,并通过优化一个变分上界来学习这些离散编码。实验表明,DSIML在召回指标上超越了主流度量学习和哈希方法,为解决长尾问题和设计高效语义ID提供了新的技术思路。
6. Making Large Language Models Efficient Dense Retrievers
🏷️ 来源: 🎓 学术界 | University of Amsterdam, Johns Hopkins University
⭐ 评分: 4/5
📝 摘要: 直接微调LLM作为密集检索器效果强大但效率低下。本文系统分析了LLM在检索任务中的层冗余,发现与生成任务不同,其MLP层冗余度高而注意力层关键。基于此,提出了EffiR框架,采用从粗到细的两阶段策略对MLP层进行大规模压缩(先剪深度,后压宽度),并结合检索特定的对比学习进行微调。在BEIR基准上的实验表明,EffiR能显著减少模型参数量和推理耗时,同时保持与完整模型相近的性能。这为在召回阶段低成本部署LLM提供了可行的技术路径。
7. Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation
🏷️ 来源: 🤝 产学合作 | City University of Hong Kong, Tencent
⭐ 评分: 4/5
📝 摘要: 为了提升序列推荐中对比学习的质量,本文提出SRA-CL框架,巧妙地利用LLM作为离线的语义特征提取器。首先,用LLM生成用户偏好和物品的上下文感知语义描述并转化为嵌入;然后,基于这些高质量的语义嵌入进行检索,为用户间和用户内对比学习构建候选样本池;最后,通过一个可学习的样本合成器动态优化对比对的生成。这个即插即用的模块能与SASRec等主流序列模型无缝集成,并在多个数据集上带来稳定提升,展示了利用LLM语义增强现有模型的有效工程方案。
8. Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm
🏷️ 来源: 🤝 产学合作 | Zhejiang University, ByteDance
⭐ 评分: 4/5
📝 摘要: 本文研究针对序列推荐系统的配置文件污染攻击(PPA)。与需要大量假账户的传统数据投毒不同,PPA旨在轻微污染部分真实用户交互以达成攻击目标。论文指出以往方法在细粒度扰动和隐蔽性上的不足,并提出CREAT框架。该框架将攻击建模为一个双层优化问题,并采用约束强化学习来求解,通过设计模式反演奖励和分布一致性奖励,在保证攻击效力的同时最小化可检测性。这项工作深化了对推荐系统脆弱性的理解,对开发鲁棒性模型和评估防御方法有重要价值。
9. FCN: Fusing Exponential and Linear Cross Network for Click-Through Rate Prediction
🏷️ 来源: 🤝 产学合作 | Anhui University, Huawei
⭐ 评分: 4/5
📝 摘要: 本文对经典的Deep & Cross网络范式进行反思,指出其显式交叉网络性能弱于DNN、存在噪声等问题,并提出了首个不依赖DNN的纯显式特征交互模型FCN。FCN包含两个子网络:线性交叉网络(LCN)和指数交叉网络(ECN)。ECN通过改变交互锚点,使特征交互阶数呈指数增长,从而高效捕捉高阶显式交互。此外,论文还通过低代价聚合技术将交叉网络参数量减半,并设计了Tri-BCE损失为各分支提供专门监督。在多个CTR基准数据集上,FCN取得了新的SOTA性能,为精排模型设计提供了新思路。
10. From Points to Coalitions: Hierarchical Contrastive Shapley Values for Prioritizing Data Samples
🏷️ 来源: 🎓 学术界 | Sun Yat-sen University, National University of Singapore
⭐ 评分: 4/5
📝 摘要: 本文提出了一种高效、几何感知的数据估值框架HCDV,旨在量化大规模数据集中每个样本的价值。该方法通过对比学习奖励能“锐化决策边界”的样本,并将数据组织成层次化聚类,将经典Data-Shapley的阶乘复杂度大幅降低。在一个包含4500万样本的大规模CTR预测任务上,基于HCDV筛选出的前30%高价值数据训练的模型,AUC显著优于其他基线方法,且估值计算速度提升可达100倍。这为推荐系统中的数据去噪、增强样本筛选和高效训练提供了强有力的原则性工具。