推荐算法日报 - 2026-02-12
2026-2-12
| 2026-2-12
字数 4244阅读时长 11 分钟
type
status
date
slug
summary
tags
category
icon
password
priority

Section 1: 📊 Trend Analysis

  • 🔥 生成式推荐进入深水区,聚焦核心瓶颈与范式创新:今日多篇论文围绕生成式推荐(Generative Rec)展开,研究重点已从“是否可行”转向“如何优化”。核心议题包括:1)基础设施优化,如腾讯提出端到端语义ID生成(UniSID)以解决两阶段压缩的固有缺陷;2)训练稳定性与数据质量,如腾讯的DRPO从理论上解决离线RL的模型崩溃问题;3)解码与RL微调效率,如腾讯的V-STAR解决概率-奖励错配。这表明业界正系统性地攻克生成式推荐落地中的关键工程与算法挑战。
  • 💡 LLM深度赋能推荐系统,从特征理解走向系统优化与智能体化:大语言模型(LLM)在推荐中的应用呈现出两大进阶方向:1)作为系统优化器:Google/YouTube的“自进化推荐系统”利用LLM Agent自主优化模型架构、奖励函数,实现端到端自动化实验,极大提升了迭代效率。2)作为离线的语义裁判与规划大脑:腾讯的S-GRec提出“LLM-as-Judge”范式,解耦离线语义监督与在线轻量生成;ChainRec则利用LLM规划器动态路由工具链,实现自适应推理。LLM正从辅助特征工程,演变为重构推荐系统工作流的核心智能体。
  • ⚙️ 工业级模型效率优化成为刚需,创新聚焦于计算复用与架构定制:在模型规模持续扩大的背景下,如何满足严格的线上延迟约束是工业界的核心关切。今日论文展示了多种高效的优化思路:1)计算复用:阿里巴巴的EST通过设计用户-候选解耦的注意力机制实现KV缓存;字节跳动的UG-Sep首次在稠密交互模型(如RankMixer)中实现用户侧计算复用。2)定制化高效架构:EST针对CTR任务信息密度不对称的特点,设计了轻量交叉注意力(LCA)和内容稀疏注意力(CSA)。这些工作表明,工业界的模型创新正紧密围绕“性能-效率”的帕累托前沿展开。

Section 2: 📋 今日速览

今日速览
阿里巴巴 提出高效可扩展Transformer EST,淘宝广告RPM提升3.27%
腾讯 提出V-STAR解决生成式推荐RL微调错配,微信视频号GMV提升1.23%
腾讯 提出LLM-as-Judge范式S-GRec,解耦语义裁判与在线生成器
腾讯&武大 提出端到端语义ID生成框架UniSID,下游命中率提升4.62%
腾讯 提出DRPO解决离线RL模型崩溃,理论证明硬过滤为最优解
Google YouTube 实现首个LLM Agent自进化推荐系统,实验吞吐提升至每周数百
港城大&港理工 提出稀疏正则化多模态标记化MoToRec,冷启动NDCG提升12.58%
Walmart 用LLM+RAG解决营销活动归因标签生成,精度达78-90%
腾讯&中科院 提出动态工具链规划Agent框架ChainRec,冷启动场景提升显著
字节跳动 提出UG-Sep实现稠密模型中用户侧计算复用,线上延迟降低20%

Section 3: 📰 Daily Digest

1. EST: Towards Efficient Scaling Laws in Click-Through Rate Prediction via Unified Modeling

🔗 原文: https://arxiv.org/abs/2602.10811v1
🏷️ 来源: 🏭 工业界 | Alibaba
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 工业级CTR模型规模化新范式,统一建模+高效注意力,淘宝线上RPM提升3.27%。
📝 摘要: 本文针对工业级CTR模型在严格延迟约束下的规模化瓶颈,提出了高效可扩展Transformer(EST)。核心创新在于识别了CTR任务与LLM在信息密度和模态先验上的根本差异,并据此设计了轻量交叉注意力(LCA)和内容稀疏注意力(CSA)模块,首次实现了对所有原始输入特征(包括细粒度用户行为序列)的完全统一建模,避免了传统早期聚合造成的信息损失。该方法在淘宝展示广告平台的线上A/B测试中取得了显著收益,RPM提升3.27%,CTR提升1.22%,并验证了稳定的幂律扩展关系,为工业界设计可扩展的CTR模型提供了新的范式参考。

2. Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

🔗 原文: https://arxiv.org/abs/2602.10699v1
🏷️ 来源: 🏭 工业界 | Tencent
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 腾讯提出V-STAR,解决生成式推荐RL微调中的概率-奖励错配问题,线上GMV显著提升,方法创新且扎实。
📝 摘要: 本文针对生成式推荐中使用强化学习(RL)微调时存在的概率-奖励错配核心痛点,提出了V-STAR框架。该框架包含价值引导的高效解码(VED)和兄弟节点GRPO优化两个协同组件:VED通过识别解码树中的关键节点,有选择地深化高潜力分支以改善探索效率;Sibling-GRPO则利用生成的树状拓扑,在共享前缀的兄弟节点间计算相对优势,将学习信号集中在关键的分支决策上,缓解了传统Beam Search导致的优势压缩问题。该框架在微信视频号广告推荐的线上A/B测试中取得了GMV提升1.23%的显著业务收益。

3. S-GRec: Personalized Semantic-Aware Generative Recommendation with Asymmetric Advantage

🔗 原文: https://arxiv.org/abs/2602.10606v1
🏷️ 来源: 🏭 工业界 | Tencent
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 腾讯提出LLM-as-Judge新范式,解耦离线语义裁判与在线生成器,线上GMV+1.19%,对工业界有重要参考价值。
📝 摘要: 本文提出S-GRec框架,旨在解决将LLM的丰富语义先验引入工业推荐系统时面临的两大障碍:语义信号与业务目标冲突、LLM在线推理成本过高。其核心创新是提出了“LLM-as-Judge”范式,将离线的LLM语义裁判与在线的轻量生成器解耦。框架包含两阶段个性化语义裁判(PSJ)来产生稳定的语义奖励,以及非对称优势策略优化(A2PO),以后者确保优化以业务奖励(如eCPM)为锚点,仅当语义优势与业务优势一致时才选择性注入语义指导。该框架在微信视频号广告系统的线上测试中实现了GMV提升1.19%和CTR提升1.16%的收益,且无需实时LLM推理。

4. End-to-End Semantic ID Generation for Generative Advertisement Recommendation

🔗 原文: https://arxiv.org/abs/2602.10445v1
🏷️ 来源: 🤝 产学合作 | Tencent, Wuhan University
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 生成式推荐语义ID生成的端到端范式突破,解决两阶段压缩核心痛点,工业验证效果显著。
📝 摘要: 本文针对生成式推荐中语义ID(SID)生成的两阶段残差量化范式存在的目标错位、语义退化和误差累积三大缺陷,提出了端到端的统一SID生成框架UniSID。该框架直接从原始广告数据(多模态特征+结构化属性)出发,联合优化SID和物品嵌入,使语义信息直接流入SID空间。其创新设计包括多粒度对比学习以对齐不同层级的SID语义,以及基于摘要的广告重建机制以鼓励SID捕获未显式存在的高层语义。在工业广告数据集上的实验表明,UniSID生成的SID质量更高,下游任务(如下一广告预测)的命中率指标最高提升4.62%。

5. Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation

🔗 原文: https://arxiv.org/abs/2602.10430v1
🏷️ 来源: 🏭 工业界 | Tencent
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 腾讯提出DRPO,从理论到方法系统解决离线RL在噪声数据下的模型崩溃问题,线上验证效果显著。
📝 摘要: 本文深入分析了基于策略的离线强化学习在生成式推荐中因低质量数据主导而导致模型崩溃的根本原因,并提出了“排斥优化发散理论”,从数学上解释了负梯度更新引发指数级发散的机制。为解决此问题,作者将目标重构为一个乐观分布鲁棒优化(DRO)问题,并据此提出了分布鲁棒策略优化(DRPO)。理论证明,对奖励分布进行硬过滤(仅保留高质量样本)是该DRO目标的精确解。DRPO通过自适应地过滤掉诱导发散的噪声样本,专注于从噪声行为策略中恢复潜在的高质量分布,从而实现了稳定且高效的策略学习,在混合质量推荐基准上达到了最先进的性能。

6. Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents

🔗 原文: https://arxiv.org/abs/2602.10226v1
🏷️ 来源: 🏭 工业界 | Google
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: Google YouTube首个基于LLM Agent的推荐系统自进化框架,线上验证显著提升实验吞吐和模型性能,范式突破。
📝 摘要: 本文提出并落地了首个基于LLM Agent的推荐系统自进化框架,旨在自动化地优化大规模推荐模型。该系统由离线Agent(内环)和在线Agent(外环)构成双环工作流:内环Agent利用代理指标进行高吞吐量的假设生成与验证;外环Agent则在真实生产环境中验证候选模型对延迟北极星指标的影响。这些LLM Agent扮演专业机器学习工程师的角色,展现出深度推理能力,能够自主发现并实施模型架构、优化器及奖励函数等方面的创新改进。该框架已在YouTube多个场景成功上线,不仅将实验吞吐量从每周个位数提升至数百量级,还带来了多项核心业务指标的显著提升。

7. MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

🔗 原文: https://arxiv.org/abs/2602.11062v1
🏷️ 来源: 🎓 学术界 | City University of Hong Kong, The Hong Kong Polytechnic University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出离散语义标记化新范式,通过稀疏正则化RQ-VAE生成可解释的组合语义码,有效解决多模态推荐中的冷启动问题。
📝 摘要: 本文针对多模态推荐中的物品冷启动问题,提出将多模态内容转化为离散语义标记(Token)的新范式。所提出的MoToRec框架核心是一个稀疏正则化的残差量化变分自编码器(RQ-VAE),用于生成可解释的组合语义码,以促进解耦的表示学习。框架还集成了自适应稀有度放大机制,优先增强冷启动物品的学习信号,以及一个分层多源图编码器用于融合协同信号。在三个大规模数据集上的实验表明,MoToRec在整体和冷启动场景下均显著优于现有方法,尤其在冷启动物品集上NDCG@20指标提升高达12.58%,验证了离散标记化在缓解冷启动挑战方面的有效性和可扩展性。

8. Campaign-2-PT-RAG: LLM-Guided Semantic Product Type Attribution for Scalable Campaign Ranking

🔗 原文: https://arxiv.org/abs/2602.10577v1
🏷️ 来源: 🏭 工业界 | Walmart Global Tech
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: Walmart工业实践:用LLM+RAG解决营销活动归因标签生成难题,方法扎实,系统架构完整。
📝 摘要: 本文解决了电商营销活动(Campaign)推荐中训练标签难以自动生成的痛点。传统的创意性活动描述无法直接映射到具体商品购买,导致监督信号缺失。为此,作者提出了Campaign-2-PT-RAG框架,利用LLM+RAG(检索增强生成)技术,将模糊的归因问题转化为可处理的语义对齐任务:首先用LLM解释活动内容以捕获隐式意图,然后通过语义检索从平台产品类型(PT)知识库中获取候选,最后用LLM分类器评估相关性,生成活动覆盖的产品类型集。用户购买行为若匹配该集合则产生正样本标签。在内部数据集上,该方法生成的标签精度达到78-90%,召回率超过99%,为下游活动排序模型提供了高质量、可扩展的监督信号。

9. ChainRec: An Agentic Recommender Learning to Route Tool Chains for Diverse and Evolving Interests

🔗 原文: https://arxiv.org/abs/2602.10490v1
🏷️ 来源: 🤝 产学合作 | Tencent, Chinese Academy of Sciences, Wuhan University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出动态工具链规划的Agentic推荐框架,在冷启动和兴趣漂移场景表现突出。
📝 摘要: 本文提出ChainRec,一个智能体推荐框架,其核心创新在于用规划器动态选择推理工具链,以替代固定的工作流。该框架首先从专家思维链轨迹中构建标准化的工具代理库,然后训练一个规划器(通过监督微调和直接偏好优化)来根据当前用户上下文动态决定调用哪个工具、执行顺序以及何时停止。这种方法使得推荐系统能够自适应地应对不同场景,例如在用户冷启动时侧重调用长期偏好分析工具,在兴趣漂移时重新权衡短期与长期信号。在AgentRecBench基准测试中,ChainRec在多个数据集上一致优于强基线,尤其在冷启动和兴趣演化场景下提升显著。

10. Compute Only Once: UG-Separation for Efficient Large Recommendation Models

🔗 原文: https://arxiv.org/abs/2602.10455v1
🏷️ 来源: 🏭 工业界 | ByteDance
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 字节跳动提出首个在稠密交互模型中实现用户侧计算复用的方法,线上多场景验证延迟降低20%且指标稳定。
📝 摘要: 本文针对RankMixer等稠密特征交互模型在服务时用户与物品特征深度耦合、无法复用用户侧计算的问题,提出了用户-组分离(UG-Sep)框架。该框架通过在Token混合层引入掩码机制,显式地解耦用户侧和物品侧的信息流,确保一部分Token始终保持纯粹的用户侧表征,从而使得对应的计算可以在同一用户的不同候选物品间复用。为了补偿因掩码可能带来的表达能力损失,还提出了信息补偿策略。此外,结合W8A16权重量化进一步缓解内存带宽瓶颈。该方案在字节跳动抖音、穿山甲等多个核心业务场景的大规模线上A/B测试中,实现了推理延迟降低12-20%的显著优化,且核心业务指标保持稳定。
  • 日报
  • 推荐系统
  • 推荐算法日报 - 2026-02-13推荐算法日报 - 2026-02-11
    Loading...