type
status
date
slug
summary
tags
category
icon
password
priority
Section 1: 📊 Trend Analysis
🔥 生成式推荐范式深化
近期多篇论文聚焦于生成式推荐(Generative Recommendation)的范式演进。核心趋势是从传统的自回归(Autoregressive)建模转向更高效的并行解码方法,如掩码扩散模型(Masked Diffusion)。这种转变旨在解决自回归模型推理延迟高、对长程依赖建模能力有限等问题,代表了推荐系统在追求更高性能与更低延迟方向上的重要探索。
💡 多模态与知识增强成为关键
视频推荐领域的研究前沿正积极整合视频大语言模型(VLLM)的世界知识。核心思路不再是简单地将视频内容转化为文本标签,而是直接从原始像素中提取并融合多层次的语义表征。这要求系统设计兼顾知识利用的深度与在线服务的低延迟,催生了“离线提取特征,在线快速检索”的新型架构,以实现知识增强与工程效率的平衡。
Section 2: 📰 Daily Digest
1. Abacus: Self-Supervised Event Counting-Aligned Distributional Pretraining for Sequential User Modeling
评分: ⭐⭐⭐⭐⭐ (5/5)
推荐理由: 工业界展示广告核心问题,提出新颖的预训练方法,AUC提升显著,可直接落地。
摘要: 针对展示广告中用户购买行为稀疏、随机性强的问题,本文提出Abacus预训练方法。该方法通过预测用户事件类型的经验频率分布,将传统手工“计数”特征的稳定性与序列模型的时序敏感性相结合。实验表明,该方法能加速下游任务收敛,并在混合目标下实现高达+6.1%的AUC提升。
2. LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation
评分: ⭐⭐⭐⭐⭐ (5/5)
推荐理由: 视频推荐前沿,利用VLLM世界知识,设计低延迟系统,SOTA结果,工程落地价值高。
摘要: 本文提出LinkedOut框架,旨在将视频大语言模型(VLLM)中的世界知识直接应用于视频推荐。通过从原始视频帧中提取知识感知的语义表征,并设计跨层知识融合的MoE模块,该方法避免了语言输出的瓶颈,支持多视频历史输入。采用离线特征预计算、在线轻量检索的架构,在保证低延迟的同时实现了SOTA性能。
3. Masked Diffusion for Generative Recommendation
评分: ⭐⭐⭐⭐⭐ (5/5)
推荐理由: 生成式推荐前沿,用掩码扩散模型改进自回归缺陷,提升效率与性能,代表趋势。
摘要: 本文将掩码扩散模型引入基于语义ID的生成式推荐。与传统的自回归建模相比,掩码扩散使用离散掩码噪声,允许在给定未掩码令牌的条件下并行解码被掩码的令牌。该方法在多个基准数据集上一致优于自回归模型,尤其在数据受限和粗粒度召回场景下优势明显,同时提供了更灵活的推理效率权衡。
4. Microsoft Academic Graph Information Retrieval for Research Recommendation and Assistance
评分: ⭐⭐⭐⭐ (4/5)
推荐理由: 研究推荐系统,结合GNN与LLM进行检索,方法清晰,有应用价值。
摘要: 本文提出一种基于注意力的子图检索器模型,该模型应用基于注意力的剪枝技术从大规模学术图谱中提取精炼的子图,随后将子图传递给大语言模型进行高级知识推理,以服务于研究推荐与辅助任务。
5. The Evolution of Reranking Models in Information Retrieval: From Heuristic Methods to Large Language Models
评分: ⭐⭐⭐⭐ (4/5)
推荐理由: 重排综述,涵盖LLM等前沿技术,对理解技术演进和系统设计有重要参考价值。
摘要: 本文对信息检索中的重排模型进行了全面综述,涵盖了从启发式方法到大型语言模型的技术演进。文章详细分析了交叉编码器、序列生成模型、图神经网络以及LLM集成等不同范式的原理、相对有效性、计算特征和实际权衡。
6. InfoDCL: Informative Noise Enhanced Diffusion Based Contrastive Learning
评分: ⭐⭐⭐⭐ (4/5)
推荐理由: 推荐系统对比学习新框架,结合扩散模型,方法新颖,实验充分。
摘要: 提出InfoDCL,一种基于扩散的对比学习推荐框架。与随机注入高斯噪声不同,该方法利用单步扩散过程,将噪声与辅助语义信息结合生成信号,进而生成真实的用户偏好作为对比视图。通过协同训练目标策略,将生成过程与偏好学习之间的干扰转化为相互协作。
7. KOSS: Kalman-Optimal Selective State Spaces for Long-Term Sequence Modeling
评分: ⭐⭐⭐ (3/5)
推荐理由: 序列建模新架构,可能用于用户行为序列,但论文未明确针对推荐,偏理论改进。
摘要: 本文提出KOSS,一种卡尔曼最优选择性状态空间模型,将选择机制公式化为潜在状态不确定性最小化问题。该模型采用由卡尔曼增益驱动的连续时间潜在状态更新,实现了基于内容和上下文的闭环、上下文感知的选择机制,在长期预测基准上表现出色。
8. Cornserve: Efficiently Serving Any-to-Any Multimodal Models
评分: ⭐⭐⭐ (3/5)
推荐理由: 多模态模型服务系统,可借鉴于推荐系统部署,但非直接解决推荐问题。
摘要: 本文提出Cornserve,一个用于“任意到任意”多模态模型的高效在线服务系统。该系统允许开发者描述通用多模态模型的计算图,其规划器能自动根据模型和工作负载特征找到优化的部署计划,其分布式运行时则高效处理在线服务期间的异构性。
9. Iterative Feature Exclusion Ranking for Deep Tabular Learning
评分: ⭐⭐⭐ (3/5)
推荐理由: 表格数据特征选择,可用于推荐特征工程,但非直接针对推荐系统。
摘要: 本文提出一种新颖的迭代特征排除模块,用于增强表格数据中的特征重要性排序。该模块通过迭代排除每个特征并计算注意力分数,生成能捕捉特征间全局和局部交互的精炼特征重要性表示,在公开数据集上的特征排序和分类任务中表现优异。
Section 3: 🔍 Deep Dive
Abacus: Self-Supervised Event Counting-Aligned Distributional Pretraining for Sequential User Modeling
💡 背景与核心贡献
在展示广告系统中,建模用户购买行为极具挑战性,主要源于正样本事件的稀疏性和用户行为的随机性,导致严重的类别不平衡和不规则的事件时序。现有系统严重依赖手工制作的“计数”特征,忽略了用户意图的细粒度时序演化。同时,当前的序列模型提取直接的序列信号,却遗漏了有用的事件计数统计信息。本文的核心贡献是提出了Abacus,一种新颖的自监督预训练方法,通过预测用户事件的经验频率分布,将聚合统计的稳定性与序列建模的敏感性相结合。
🛠️ 落地环节与关键细节
- 预训练任务设计:Abacus任务训练编码器通过预测序列内事件类型的经验直方图来总结序列。提供了三种序列增强选项:无增强(学习事件频率)、随机排列(强制排列不变性)和片段事件掩码(从被破坏的序列中预测直方图)。
- 混合目标训练:采用多任务学习,将Abacus与掩码序列建模(MSM)和对比学习(Barlow Twins)等任务结合,通过加权损失总和进行训练,结合了不同任务的优点。
- 模型架构:支持RNN(如GRU)和Transformer(如BERT)作为共享编码器。输入是事件嵌入和时间戳的拼接,编码后通过任务特定的投影头输出预测。
📈 线上收益与评估
- 在两个真实世界数据集上的实验表明,基于Abacus的预训练优于现有方法,能加速下游任务收敛。
- 混合方法(Abacus + MSM + Barlow Twins)相比基线带来了高达+6.1%的AUC提升。
- 消融实验证明了混合Abacus与互补的预训练任务是有益且稳定的。
LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation
💡 背景与核心贡献
视频推荐系统长期依赖手工制作或预提取的标签,这丢弃了像素中的大部分信息,并使个性化在冷启动和长尾场景中变得脆弱。视频大语言模型(VLLM)虽具备世界知识,但其仅解码生成文本的接口、高延迟推理以及对多视频输入支持不足,限制了其在推荐中的直接应用。本文的核心贡献是提出了LinkedOut框架,它直接从VLLM中提取世界知识表征,移除了语言瓶颈,并设计了一套支持低延迟在线服务的存储-检索架构。
🛠️ 落地环节与关键细节
- 表征提取:不微调VLLM(避免灾难性遗忘),而是直接从VLLM的中间令牌表征中提取嵌入,因为世界知识分布在Transformer的各层中。
- 跨层知识融合MoE:设计了一个混合专家模块,融合来自不同Transformer层的表征。通过跨层门控机制,产生一个统一的推荐嵌入,混合了细粒度的视觉线索和高层的语义知识。
- 离线-在线解耦架构:采用存储-检索流水线。离线阶段,使用Cross-layer Knowledge-fusion MoE预计算紧凑的LinkedOut特征并存入向量数据库。在线服务时,轻量级推荐模块检索候选嵌入并基于用户上下文和提示进行快速排序,从而满足低延迟要求。
📈 线上收益与评估
- LinkedOut在公开视频推荐基准上取得了最先进的结果,受益于从VLLM各层聚合的世界知识。
- 可解释性研究和消融实验证实了层多样性和逐层融合的好处。
- 该框架支持通过提示引导特征聚焦模块,使其关注用户相关属性或辅助模态,实现了无需重新训练的快速适应能力。
Masked Diffusion for Generative Recommendation
💡 背景与核心贡献
基于语义ID的生成式推荐现有工作主要采用自回归建模来学习用户SID序列的概率分布。虽然有效,但自回归模型存在推理延迟高(需顺序解码)、可能低效利用训练数据以及对令牌间短上下文关系存在学习偏差等问题。受NLP领域突破启发,本文核心贡献是提出使用掩码扩散来建模用户SID序列的概率。掩码扩散使用离散掩码噪声,并假设在给定未掩码令牌的条件下,被掩码令牌是条件独立的,从而允许并行解码。
🛠️ 落地环节与关键细节
- 方法设计:提出MaskGR方法,将掩码扩散应用于SID序列。它通过随机掩码序列中的令牌,并训练模型在扩散过程中逐步去掩码,来学习序列分布。
- 训练与推理:训练时使用所有可能的掩码率,从每个原始序列中生成指数级数量的训练样本。推理时,可以灵活选择执行前向传播的次数(功能评估),以权衡性能与效率,并支持并行解码多个令牌。