推荐算法日报 - 2026-02-10
2026-2-10
| 2026-2-12
字数 5993阅读时长 15 分钟
type
status
date
slug
summary
tags
category
icon
password
priority

Section 1: 📊 Trend Analysis

基于今日论文,我们观察到以下技术趋势:
  • 🔥 生成式推荐进入深水区,与业务场景深度融合:生成式推荐(Generative-Rec)正从通用范式探索转向针对特定场景(如直播、电商)的深度定制。快手OneLive针对直播的动态性、实时性挑战,设计了动态Tokenizer和时序感知注意力;阿里REG4Rec则引入MoE并行量化码本和推理反思机制,构建多样化推理路径。这表明业界正致力于解决生成式推荐在真实工业环境中的“水土不服”问题,使其从“能用”迈向“好用”。
  • 💡 LLM从“特征提供者”演变为“语义理解与对齐引擎”:LLM在推荐中的应用正超越简单的特征抽取或文本理解。快手QARM V2利用LLM进行推理,过滤噪声数据并生成可学习的语义ID,实现业务语义对齐;阿里Retrieval-GRPO和LinkedIn的实践则让LLM扮演高质量的奖励模型或预言家,为强化学习或多教师蒸馏提供监督信号。LLM正深度融入推荐系统的训练、对齐和评估链路,成为提升语义泛化能力的关键组件。
  • 🔧 工业级模型扩展与效率优化成为核心竞争力:在严格延迟约束下扩展模型容量是工业界的核心挑战。字节MSN通过Product-Key Memory实现参数容量指数增长与计算复杂度次线性增加的平衡;LinkedIn通过模型剪枝、上下文压缩、混合交互(MixLM)等系统化工程,将LLM排序吞吐提升75倍。这些工作表明,前沿算法的落地离不开与之协同的、极致的训练与推理优化。

Section 2: 📰 Daily Digest

1. Rethinking Multi-objective Ranking Ensemble in Recommender System: From Score Fusion to Rank Consistency

🔗 原文: https://arxiv.org/abs/2601.02955v3
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手工业实践:多目标融合从分数融合转向排序一致性,线上购买+2.6%,方法扎实收益显著。
📊 评分理由: 工业界(快手)。这是一篇典型的工业界主导、解决核心业务问题的优秀论文。核心贡献在于对精排阶段的多目标融合(ME)问题进行了系统性反思,并提出了两个核心设计原则:排序一致性(Rank Consistency)和共性建模(Commonality Modeling)。方法上,创新性地将AUC优化重构为排序和问题,并利用可微分排序技术实现端到端优化;同时设计了关系感知的融合架构。线上在快手直播电商平台(4亿DAU)取得2.6%的购买提升,收益显著。论文实验扎实,包含离线、在线、消融、鲁棒性分析,对工业实践有很强的指导意义。5分。
📝 摘要: 本文针对工业推荐系统精排阶段的多目标融合(ME)问题进行了系统性反思。传统方法将多个目标的预测分数融合为一个统一分,但作者指出理想方案需满足两点:融合分应与各目标标签的排序一致(最大化各目标AUC),且应与多数目标的共性对齐。为此,论文提出HarmonRank框架,通过将AUC优化重构为可微分的排序和问题来实现排序一致性,并采用关系感知的融合架构进行共性建模。该轻量级模型(2.4K参数)在快手直播电商平台(4亿DAU)上线后,带来2.6%的购买提升及多个互动目标的全面增长,实现了帕累托改进。

2. OneLive: Dynamically Unified Generative Framework for Live-Streaming Recommendation

🔗 原文: https://arxiv.org/abs/2602.08612v1
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手首个直播场景生成式推荐框架,线上多指标显著提升,系统性解决直播动态性挑战。
📊 评分理由: 工业界(快手)。提出首个针对直播场景的动态统一生成式推荐框架,并完成大规模线上部署。线上AB测试在快手和快手极速版均取得显著收益(曝光+1.32%/+1.96%,点击+1.73%/+2.70%等)。核心贡献在于系统性地解决了直播场景的四大挑战(动态内容、有限生命周期、实时约束、多目标),不是简单套用现有生成式推荐,而是深度融合了动态Tokenizer、时序感知注意力、高效解码架构和RL对齐。方法创新扎实,线上收益solid,对业界生成式推荐在动态场景的落地有很强的范式参考价值。5分。
📝 摘要: 本文提出OneLive,首个专为直播场景设计的动态统一生成式推荐框架。直播场景具有内容实时变化、生命周期有限、实时约束严格、目标异构等独特挑战。OneLive通过动态Tokenizer实时编码直播内容,使用时序感知门控注意力显式建模时间动态,并采用高效的Decoder-Only架构(含Sequential MTP和QK Norm)加速推理。此外,框架集成了统一的多目标对齐模块,利用强化学习策略优化生成过程。该框架已在快手主App和极速版全量部署,线上A/B测试在曝光、点击、观看时长、关注等多个核心指标上均取得显著提升,验证了其在超大规模工业场景中的有效性。

3. QARM V2: Quantitative Alignment Multi-Modal Recommendation for Reasoning User Sequence Modeling

🔗 原文: https://arxiv.org/abs/2602.08559v1
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手工业级实践:用LLM推理对齐业务语义,并设计可学习的语义ID,线上多场景收益显著。
📊 评分理由: 工业界(快手)。提出了一套完整的LLM与推荐系统深度融合的工程化方案,线上在广告、电商、直播等多个核心场景取得显著收益(GMV +5.6%,Revenue +4.9%)。核心贡献在于系统性地解决了LLM语义与业务目标对齐(Representation Unmatch)和端到端学习(Representation Unlearning)两大难题,不是浅层特征工程,而是重新设计了从数据构造、模型微调到量化编码的完整链路,对业界有很强的范式参考价值。5分。
📝 摘要: 本文提出QARM V2框架,旨在将LLM的语义理解能力与推荐系统的业务目标深度对齐。传统ID嵌入存在信息密度低、泛化弱的问题,而直接使用LLM嵌入则面临语义与业务目标不匹配、无法端到端学习的挑战。QARM V2利用LLM推理能力过滤噪声数据构建高质量监督信号,通过“三段式注意力掩码”微调LLM为稳定的嵌入生成器,并创新性地结合Res-Kmeans和FSQ量化方法生成低冲突、可学习的语义ID。这些语义ID作为离散特征输入精排模型进行端到端优化。该方案在快手广告、电商、直播场景上线,带来了GMV、收入等核心指标的显著提升。

4. PIT: A Dynamic Personalized Item Tokenizer for End-to-End Generative Recommendation

🔗 原文: https://arxiv.org/abs/2602.08530v1
🏷️ 来源: 🤝 产学合作 | Kuaishou, Beijing University of Posts and Telecommunications, Chinese Academy of Sciences
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手提出动态语义ID协同进化框架,解决生成式推荐中索引与模型割裂问题,线上停留时长显著提升。
📊 评分理由: 工业界主导(快手)。提出并落地了端到端生成式推荐中动态语义ID(SID)构建与推荐模型协同进化的新范式。核心创新在于通过协同信号对齐(CSA)、最小损失选择(MLS)和一对多Beam索引,解决了工业场景下协同信号动态变化导致SID不稳定的关键难题。线上AB测试在快手主站和极速版均取得显著收益(App停留时长+0.402%),验证了其在大规模工业环境中的有效性和业务价值。方法创新与线上收益兼备,对业界生成式推荐方向有重要参考价值。5分。
📝 摘要: 本文针对生成式推荐中物品语义ID(SID)构建与推荐模型训练割裂的问题,提出PIT框架,实现两者的动态协同进化。现有方法多使用静态、解耦的tokenization,忽略了动态变化的协同信号。PIT通过协同信号对齐(CSA)模块将用户-物品交互信号注入物品表征,并利用最小损失选择(MLS)机制,让生成式推荐器从物品索引器生成的多个候选SID中个性化选择最优解,从而实现端到端的联合优化。此外,一对多Beam索引确保了大规模部署的可扩展性。该框架在快手短视频推荐场景上线,线上A/B测试带来了App停留时长0.402%的显著提升。

5. REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems

🔗 原文: https://arxiv.org/abs/2508.15308v4
🏷️ 来源: 🤝 产学合作 | Alibaba, Wuhan University
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 阿里巴巴提出推理增强生成式推荐REG4Rec,线上广告收入+5.6%,是生成式推荐与LLM推理思想深度融合的工业级突破。
📊 评分理由: 工业界(阿里巴巴)。提出了一种创新的推理增强生成式推荐模型REG4Rec,核心贡献在于:1)设计了MoE并行量化码本(MPQ)构建多样化推理路径空间,突破了传统语义ID的单一表示限制;2)提出了完整的训练后强化学习对齐框架(PARS)和多步奖励增强(MSRA),显著提升推理可靠性;3)在推理阶段引入一致性导向的自反思剪枝(CORP),确保高质量推荐。线上AB测试在阿里广告平台获得显著收益(广告收入+5.60%,CTR+1.81%,GMV+3.29%),离线实验在工业数据集上提升达16.59%。该工作将LLM中的推理和反思思想深度融入推荐系统,是生成式推荐范式的重要进展,具有极强的工业落地价值和学术启发性。5分。
📝 摘要: 本文提出REG4Rec,一个推理增强的生成式推荐模型,旨在为生成过程引入可解释的、多样化的推理路径。传统生成式推荐受限于物品的单一语义表示。REG4Rec通过MoE并行量化码本(MPQ)为每个物品生成多个无序语义token,构建巨大的组合式推理空间。为进一步提升推理可靠性,模型在训练后阶段采用强化学习(GRPO)进行偏好对齐(PARS),并引入多步奖励增强(MSRA);在推理时,通过一致性导向的自反思剪枝(CORP)丢弃不一致的路径。该模型在阿里巴巴电商广告平台上线,线上A/B测试带来了广告收入+5.60%、GMV+3.29%的显著业务收益。

6. Retrieval-GRPO: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search

🔗 原文: https://arxiv.org/abs/2511.13885v2
🏷️ 来源: 🏭 工业界 | Alibaba
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 阿里提出稠密检索RL训练新范式,消除硬负样本依赖,多目标优化线上效果显著。
📊 评分理由: 工业界(阿里巴巴)。提出面向稠密检索的多目标强化学习新范式,线上取得显著收益(GSB +29.88%)。核心创新在于:1)用RL替代传统硬负样本挖掘,实现训练与推理一致性;2)融合相关性、商品质量、排他性多目标奖励;3)利用大模型(42B MoE)作为奖励模型提供实时反馈。方法设计巧妙,实验扎实(离线+在线+消融),对工业界稠密检索训练范式有重要启发。5分。
📝 摘要: 本文提出Retrieval-GRPO,一个基于多目标强化学习的稠密检索框架,用于淘宝搜索。传统稠密检索模型依赖复杂的离线硬负样本挖掘,且多目标优化存在跷跷板效应。Retrieval-GRPO将检索Top-K候选视为智能体的“动作”,在训练中动态检索并利用奖励模型提供实时反馈。奖励信号融合了LLM生成的相关性分、商品质量分和排他性指标,以协同优化多个目标。该方法消除了对硬负样本的依赖,并通过实时纠错提升了模型对长尾复杂查询的泛化能力。线上A/B测试在淘宝搜索全量部署,整体相关性评价指标(GSB)提升29.88%。

7. MSN: A Memory-based Sparse Activation Scaling Framework for Large-scale Industrial Recommendation

🔗 原文: https://arxiv.org/abs/2602.07526v1
🏷️ 来源: 🏭 工业界 | ByteDance
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 字节跳动工业级推荐模型扩展框架,PKM内存检索实现高效个性化,线上收益显著。
📊 评分理由: 工业界(字节跳动)。提出基于内存的稀疏激活扩展框架MSN,在抖音搜索排序系统成功部署并带来显著线上收益(Active Days +0.05%,Watch Time +0.30%)。核心创新在于用Product-Key Memory替代传统SMoE,实现参数容量指数级增长而计算复杂度仅次线性增加,解决了工业推荐模型扩展中计算与内存访问的瓶颈。方法设计系统化,包含归一化、过参数化、门控融合等稳定优化策略,并定制Sparse-Gather和AirTopK算子提升工业部署效率。是工业界模型扩展的典范工作,兼具创新性、实用性和完整的技术细节。5分。
📝 摘要: 本文提出MSN,一个基于内存的稀疏激活扩展框架,用于在严格延迟约束下扩展工业推荐模型的容量。现有稀疏激活方法(如SMoE)仍面临高内存访问成本和有限的个性化能力。MSN通过Product-Key Memory(PKM)机制,将内存检索复杂度从线性降至次线性,从而能够维护超大规模参数内存(如512^2)并实现细粒度个性化。框架还引入了归一化、过参数化等策略确保训练稳定,并定制了Sparse-Gather和AirTopK算子优化工业部署效率。MSN已在抖音搜索排序系统上线,在保持高效的同时带来了活跃天数和观看时长的显著提升。

8. Semantic Search At LinkedIn

🔗 原文: https://arxiv.org/abs/2602.07309v1
🏷️ 来源: 🏭 工业界 | LinkedIn
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: LinkedIn工业级LLM排序系统全解,线上收益显著,推理效率优化范式极具参考价值。
📊 评分理由: 工业界(LinkedIn)。这是一篇教科书级的工业界LLM落地论文,展示了如何将前沿LLM技术大规模应用于搜索/推荐的核心排序问题。核心价值在于:1)线上AB验证带来显著业务收益(NDCG提升超10%,DAU+1.2%);2)系统性地解决了LLM在排序场景下的效率瓶颈(吞吐提升75倍),方法包括模型剪枝、上下文压缩、混合交互(MixLM)、推理架构协同设计等,极具工程参考价值;3)提出了完整的多教师蒸馏框架(MTD)来联合优化相关性和互动目标,方法扎实。5分。
📝 摘要: 本文系统介绍了LinkedIn将LLM应用于职位和人脉搜索排序的工业级实践。核心是一个通过多教师蒸馏(MTD)训练的小型语言模型(SLM),它同时从专注于相关性的教师模型和专注于互动行为的教师模型蒸馏知识,以联合优化多个业务目标。为满足生产环境高QPS、低延迟的要求,论文进行了一系列极致的推理优化:包括对长文本进行离线摘要压缩上下文、使用结构化剪枝压缩模型、设计混合交互(MixLM)将文档编码为少量嵌入token以大幅缩短提示长度,以及与推理架构深度协同设计。最终在固定延迟预算下,将排序吞吐提升了75倍以上,并在线上取得了NDCG显著提升和DAU增长1.2%的业务收益。

9. Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

🔗 原文: https://arxiv.org/abs/2602.07298v1
🏷️ 来源: 🏭 工业界 | Meta
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 首次为推荐LLM建立可预测缩放定律,提出高质量合成数据生成框架,解决数据偏差瓶颈,具有范式突破意义。
📊 评分理由: 工业界(Meta)。论文核心贡献是首次在推荐领域为LLM的持续预训练建立了可预测的缩放定律,这是该领域一个根本性的突破。作者指出先前工作(如PLUM)缩放失败的根本原因是原始用户交互数据的噪声和偏差,并提出了一个分层的高质量合成数据生成框架来“净化”数据。实验设计严谨,在0.6B到8B参数规模上验证了稳健的幂律缩放,并发现合成数据训练的序列模型在真实数据测试集上显著优于用真实数据训练的模型(SasRec Recall@100 +130%)。这项工作不仅提供了方法论,还为业界LLM推荐系统的资源规划和性能预测提供了首个定量路线图,具有极强的工业启发价值和范式指导意义。5分。
📝 摘要: 本文首次在推荐领域为LLM的持续预训练(CPT)建立了可预测的缩放定律。作者指出,先前工作缩放失败的根本原因在于原始用户交互数据中固有的噪声、偏差和不完整性。为此,论文提出了一个分层的、原则性的合成数据生成框架,通过构建包含物品-文本对齐、协同过滤规则以及基于图随机游走生成的无偏用户交互序列的“教学课程”,从源头净化数据。实验表明,用此合成数据训练的序列模型在真实数据测试集上显著优于用真实数据训练的模型。基于此高质量数据,论文在0.6B至8B参数规模上首次验证了稳健的幂律缩放关系,为推荐LLM的研发提供了关键的定量预测基准。

10. Contrastive Learning for Diversity-Aware Product Recommendations in Retail

🔗 原文: https://arxiv.org/abs/2602.08886v1
🏷️ 来源: 🤝 产学合作 | IKEA Retail (Ingka Group), University of Amsterdam
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: IKEA线上实践:用对比学习负采样提升推荐多样性,线上验证有效。
📊 评分理由: 工业界(IKEA Retail & 阿姆斯特丹大学合作)。核心贡献是在IKEA线上推荐系统中,通过引入对比学习和负采样策略,有效提升了商品目录覆盖率(catalog coverage)和多样性,同时保持了排序性能。方法上,将对比学习框架适配到基于余弦相似度损失的LSTM序列模型中,提出了加权损失和交叉熵损失两种变体,并探索了带采样上限的in-batch负采样和自适应的top-k负采样策略。线上A/B测试验证了其有效性(覆盖率+2.53%,多样性+9.59%)。这是一项扎实的工业实践,解决了电商推荐中长尾曝光和多样性平衡的核心痛点,方法简洁有效,有明确的线上收益。虽然方法创新性有限(主要是现有负采样技术的应用和适配),但工程落地细节和线上验证使其具有很高的参考价值。4分。
📝 摘要: 本文介绍了在宜家(IKEA)线上推荐系统中,利用对比学习提升推荐多样性的工业实践。针对电商推荐中长尾商品曝光不足、热门商品主导的问题,作者在现有的LSTM序列模型(使用余弦相似度损失)基础上,引入了对比学习思想。通过精心设计负采样策略(如带上限的in-batch采样和自适应top-k采样),并提出了加权损失和交叉熵损失两种变体,使模型在拉近正样本的同时推远特定的负样本。该方法在保持甚至略微提升NDCG排序性能的前提下,显著提高了商品目录覆盖率和推荐多样性(Gini系数改善)。线上A/B测试验证了其业务价值。
  • 日报
  • 推荐系统
  • 推荐算法日报 - 2026-02-11推荐算法日报 - 2026-02-06
    Loading...