推荐算法日报 - 2026-01-09
2026-1-9
| 2026-1-9
Words 9527Read Time 24 min
type
status
date
slug
summary
tags
category
icon
password
priority
# 推荐算法日报 | 2026-01-09

Section 1: 📊 Trend Analysis

  • 🔥 生成式推荐进入“生成+验证”协同优化新阶段:今日多篇论文显示,生成式推荐正从单纯的自回归预测,演进为引入过程奖励模型(PRM)进行中间步骤验证的协同范式。快手PROMISE通过PRM引导波束搜索解决语义漂移,腾讯SCoTER通过结构化蒸馏迁移LLM推理链,都体现了对生成过程进行“监督”和“对齐”的强烈需求,标志着该领域向更可控、更可靠的方向发展。
  • 💡 工业界聚焦“对齐”问题:从目标到评估:今日工业界论文普遍关注“对齐”问题,但维度不同。快手HarmonRank解决多目标优化目标(分类损失)与评估指标(AUC)不对齐;腾讯SCoTER解决LLM推理模式与推荐任务的对齐;华为A/B Agent则致力于让离线仿真与线上真实用户行为对齐。这反映出工业界在追求效果提升时,正从粗放式优化转向对优化目标、评估体系、仿真环境等底层逻辑的精细化校准。
  • 💡 推理效率与效果的新权衡范式:传统思路是通过扩大模型参数(参数缩放)来提升效果。今日论文提出了新的效率-效果权衡范式:1)测试时缩放(PROMISE):通过增加推理计算(扩大候选集并用轻量PRM筛选),让小模型匹敌大模型;2)离线计算,在线融合(SCoTER):将昂贵的LLM推理离线化,仅将结构化知识在线融合。这两种范式都为工业界在有限算力下追求极致效果提供了新思路。

Section 2: 📰 Daily Digest

1. PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations

🔗 原文: https://arxiv.org/abs/2601.04674v1
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手提出PRM解决生成式推荐语义漂移,并开创测试时缩放新范式,线上收益显著,是生成式推荐的重要进展。
📊 评分理由: 工业界(快手)。论文核心贡献显著:1)首次在生成式推荐中引入过程奖励模型(PRM),系统性地解决了语义漂移(Semantic Drift)这一关键问题;2)提出了“测试时缩放定律”(Test-Time Scaling Laws)这一新范式,通过增加推理计算(扩大候选集+PRM筛选)而非模型参数,让小模型匹敌或超越大模型,对工业部署极具启发;3)方法扎实,线上线下实验充分,在快手大规模平台完成AB测试并获得显著收益。这是一项兼具方法创新、范式突破和工业价值的杰出工作。5分。
📝 摘要: 生成式推荐将推荐任务重构为在层次化语义ID上的序列生成,但面临“语义漂移”问题:早期高层级token的错误会不可逆地将生成轨迹导向无关语义子空间。受大语言模型中过程奖励模型(PRM)启发,快手提出PROMISE框架,引入轻量级PRM对中间推理步骤进行密集验证,并结合PRM引导的波束搜索动态剪枝错误分支。该方法解锁了推荐系统的“测试时缩放定律”:通过增加推理计算(如扩大搜索宽度),较小的模型可以匹配甚至超越更大的模型。离线实验和快手大规模平台在线A/B测试表明,PROMISE有效缓解了语义漂移,显著提升了推荐准确性,同时实现了高效部署。

2. SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation

🔗 原文: https://arxiv.org/abs/2511.19514v3
🏷️ 来源: 🤝 产学合作 | Tencent, Chinese Academy of Sciences
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 腾讯广告线上验证的LLM推理迁移框架,GMV+2.14%,解决了自动化模式发现与结构保持迁移两大核心难题。
📊 评分理由: 工业界(腾讯广告)。提出LLM推理能力向推荐系统迁移的系统性框架,核心解决了两个关键问题:1)自动化、数据驱动的推理模式发现(GVM pipeline);2)结构保持的知识迁移(order-preserving fusion)。线上AB测试验证了2.14%的GMV提升,同时完全消除了在线LLM推理成本。方法创新性强,理论分析扎实,实验充分,是LLM-for-Rec方向极具参考价值的工业实践。5分。
📝 摘要: 利用大语言模型(LLM)的推理能力增强推荐系统面临两大挑战:缺乏自动化、数据驱动的有效推理模式发现机制,以及现有集成方法破坏了推理链的逐步逻辑结构。腾讯广告提出SCoTER框架,通过GVM(生成-验证-挖掘)管道自动从数据中发现最优推理模式,并通过结构保持的融合架构将预计算的步骤化推理嵌入集成到高效的骨干模型(如TIGER)中。该架构使用跨注意力和自适应门控,在保留推理链顺序的同时实现知识迁移。在四个公开基准上,相比TIGER骨干模型Recall@5提升3.75%-11.59%。在腾讯广告平台线上A/B测试中,实现了2.14%的GMV提升,并完全消除了在线LLM推理成本。

3. HarmonRank: Ranking-aligned Multi-objective Ensemble for Live-streaming E-commerce Recommendation

🔗 原文: https://arxiv.org/abs/2601.02955v2
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手直播电商多目标融合新范式,线上购买+2.6%,方法创新且收益显著。
📊 评分理由: 工业界(快手)。核心贡献在于提出了一种面向排序任务的多目标融合新范式,解决了传统多目标融合中优化目标(分类损失)与评估指标(AUC)不对齐,以及忽略目标间依赖关系的两大痛点。方法创新且扎实:1)将AUC优化转化为可微排序问题;2)设计了两步式关系感知融合模块。线上在4亿DAU的直播电商平台取得显著收益(购买+2.635%),并完成了详尽的离线实验和消融分析。这是一项兼具方法创新、工程严谨和线上收益的标杆性工作,对业界多目标排序优化有很强的指导意义。5分。
📝 摘要: 直播电商推荐需要平衡购买(短期价值)和用户-主播互动(长期生态价值)等多个目标。传统多目标融合模型使用多个独立的二分类损失进行监督,存在优化方向与排序任务(评估指标为AUC)不对齐,以及忽略目标间依赖关系(如评论与购买行为部分相关)两大局限。快手提出HarmonRank框架,通过可微AUC优化实现与排序任务的对齐,并通过“先对齐,再融合”的两步式关系感知融合方案实现目标间对齐。第一步使用自注意力机制对齐各目标的共同部分,第二步在个性化特征引导下融合对齐后的编码。该方法在快手4亿DAU的直播电商平台全量部署,线上实验带来超过2%的购买增益。

4. Macro Graph of Experts for Billion-Scale Multi-Task Recommendation

🔗 原文: https://arxiv.org/abs/2506.10520v4
🏷️ 来源: 🤝 产学合作 | Alibaba, Jinan University, City University of Macau, Beihang University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 阿里提出融合宏观图结构的多任务排序模型,线上GMV提升16.46%,兼顾效果与效率。
📊 评分理由: 工业界(阿里巴巴)。核心贡献是将图结构(Macro Graph)引入大规模多任务排序(Ranking)场景,解决了传统多任务模型忽略图信息、而GNN方法计算复杂度过高的问题。方法创新性强,设计了Macro Task Merging Graph (MTMG)和Macro Graph of Experts (MGOE)框架,在阿里平台完成线上AB测试,获得CTR/CVR/GMV等指标的显著提升。虽第一作者来自高校,但核心算法在工业场景落地并验证,是典型的校企合作成功案例。方法扎实,线上收益明确,对业界有很强参考价值。4分。
📝 摘要: 针对十亿级多任务推荐中不同任务对应不同大规模图、传统多任务学习忽略图结构的问题,阿里巴巴提出宏观图专家(MGOE)框架。该方法首次通过“宏观图底”(Macro Graph Bottom)将图信息有效融入多任务学习,具体包括:构建宏观任务合并图(MTMG)以融合不同任务交互形成的图结构,设计宏观图专家(MGE)通过注意力机制聚合宏观邻居信息,并利用宏观预测塔(Macro Prediction Tower)动态整合跨任务的宏观知识。在阿里巴巴电商平台线上A/B测试中,MGOE相比MMoE在GMV上提升16.46%,CVR提升5.88%,用户停留时长提升4.12%,证明了其在十亿级推荐系统中的有效性和业务价值。

5. Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing

🔗 原文: https://arxiv.org/abs/2601.04554v1
🏷️ 来源: 🤝 产学合作 | Huawei, City University of Hong Kong, Jilin University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 华为团队构建的多模态用户智能体框架,用于模拟A/B测试,设计系统,实验扎实,有落地潜力。
📊 评分理由: 工业界主导(华为 & 港城大合作)。核心贡献是构建了一个用于A/B测试仿真的多模态用户智能体框架,并开源了数据集和代码。方法上融合了LLM智能体、多模态感知(文本+图像)、记忆机制和疲劳系统,设计较为系统。实验验证了其在模型评估、数据增强上的有效性。虽无线上AB验证,但作为仿真工具,其构建思路和实验设计对工业界离线评估有较强参考价值。4分。
📝 摘要: 线上A/B测试成本高、耗时长,华为团队提出一个多模态用户智能体(A/B Agent)框架作为替代方案。该框架构建了一个模拟真实平台(如IMDb)的沙盒环境,智能体集成了多模态感知(文本+图像)、细粒度偏好建模、记忆检索和疲劳系统,以模拟复杂的人类决策过程。实验从三个角度验证了其潜力:1)模型评估:在沙盒中对多个推荐模型进行“A/B测试”,模拟出的CTR、CVR等指标趋势与离线真实评估一致;2)数据增强:将智能体交互产生的模拟数据加入训练集,能提升CTR模型的AUC性能;3)消融实验:验证了视觉模态的重要性。该框架为低成本、快速的推荐模型离线评估提供了新工具。

6. The Reward Model Selection Crisis in Personalized Alignment

🔗 原文: https://arxiv.org/abs/2512.23067v2
🏷️ 来源: 🎓 学术界 | University of Edinburgh, A*STAR, Samsung AI
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 系统揭露LLM个性化对齐中奖励模型评估指标的失效,并提出首个包含真实用户生成文本的基准,对工业实践有重要警示。
📊 评分理由: 学术界主导(爱丁堡大学、A*STAR)。论文核心贡献是揭示并系统评估了LLM个性化对齐领域的一个关键问题:奖励模型(RM)的排序精度(RM accuracy)与下游推理时策略引导(RGD)的实际生成效果严重脱钩。作者提出了新的评估指标(policy accuracy)和首个包含用户真实生成文本的基准(Pref-LaMP),实验扎实,结论对工业界部署有很强的警示和指导意义。虽无线上验证,但问题定义和方法论创新价值高。4分。
📝 摘要: 个性化对齐研究通常专注于提升个性化奖励模型(RM)的排序精度,并假设更好的偏好排序会带来更好的个性化生成行为。然而,在实际部署中,计算限制要求使用奖励引导解码(RGD)等推理时适应方法,而非针对每个用户的策略微调。本文揭示了标准RM精度作为部署就绪的个性化奖励选择标准会严重失效。作者提出了策略精度(policy accuracy)指标,并发现上游RM精度与下游策略精度仅弱相关(Kendall‘s tau = 0.08–0.31)。更重要的是,作者提出了首个包含真实用户生成文本的个性化对齐基准Pref-LaMP,并暴露了判别性排序指标与生成指标的完全脱钩:RM精度相差20个点的方法可能产生几乎相同的输出质量。相反,研究发现简单的上下文学习(ICL)在模型规模≥3B时非常有效,在7B规模上比最佳奖励方法获得约3个点的ROUGE-1增益。

7. Multivector Reranking in the Era of Strong First-Stage Retrievers

🔗 原文: https://arxiv.org/abs/2601.05200v1
🏷️ 来源: 🎓 学术界 | ISTI-CNR, University of Pisa
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 信息检索领域的高效两阶段检索系统研究,对推荐召回阶段的工程优化有参考价值。
📊 评分理由: 学术界(意大利国家研究委员会/比萨大学)。论文核心是信息检索(IR)领域的系统效率优化,而非推荐系统核心的“推荐什么item”问题。方法上是对现有两阶段检索架构的工程化改进(用LSR替代token-level gather),实验扎实,在MS MARCO和LoTTE数据集上实现了24倍加速。虽对大规模检索系统有参考价值,但并非推荐系统核心问题,创新有限。3分。
📝 摘要: 多向量表示(如ColBERT)虽检索效果好,但其详尽的token级检索成本高昂。现有系统采用“收集-精炼”策略,但token级收集阶段仍需在大型索引上搜索且易遗漏最优文档。本文提出用学习到的稀疏检索器(Learned Sparse Retriever, LSR)作为第一阶段文档级召回器,替代低效的token级收集,将多向量检索重新定义为经典的两阶段检索(召回+精排)。LSR生成一个更小、更语义一致的候选集(κ ≤ 50),然后由多向量模型进行精细重排。此外,通过集成无推理的LSR方法降低查询编码瓶颈,并引入候选剪枝和提前退出等优化技术。在MS MARCO和LoTTE数据集上,该方法实现了高达24倍的查询加速,同时保持可比或更优的检索质量。

8. The Overlooked Role of Graded Relevance Thresholds in Multilingual Dense Retrieval

🔗 原文: https://arxiv.org/abs/2601.04395v1
🏷️ 来源: 🏭 工业界 | OriginAI
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 扎实的多语言检索实验,揭示了分级相关性阈值选择的系统性规律,但对推荐核心问题启发有限。
📊 评分理由: 工业界(OriginAI)。研究多语言稠密检索中分级相关性阈值对模型微调的影响,实验扎实,揭示了低资源语言偏好宽松阈值、高资源语言偏好严格阈值的系统性规律。虽来自工业界,但研究问题偏向信息检索(IR)的模型训练细节优化,而非推荐系统核心的“推荐什么item”问题。方法创新有限(阈值调节),对推荐系统的直接启发较弱。3分。
📝 摘要: 稠密检索模型通常使用需要二值相关性判断的对比学习目标进行微调,但相关性本质上是分级的。本文分析了分级相关性分数以及将其转换为二值标签时使用的阈值如何影响多语言稠密检索。使用带有LLM标注相关性分数的多语言数据集,作者检查了单语、多语言混合和跨语言检索场景。研究发现,最优阈值在不同语言和任务间存在系统性差异,通常反映了资源水平的差异。精心选择的阈值可以提高效果、减少所需的微调数据量并缓解标注噪声,而选择不当则会降低性能。作者认为,分级相关性是稠密检索中一个有价值但未被充分利用的信号,阈值校准应被视为微调流程中一个原则性的组成部分。

Section 3: 🔍 Deep Dive

PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations

🔗 原文: https://arxiv.org/abs/2601.04674v1
🏷️ 来源: 🏭 工业界 | Kuaishou
💡 问题与动机
生成式推荐将推荐任务重构为在层次化语义ID(SID)上的序列生成。然而,现有方法存在“语义漂移”问题:在自回归推理时,早期高层级token(如品类)的错误会不可逆地将生成轨迹导向错误的语义子空间(如从“电子产品”漂移到“家居用品”),导致后续细粒度预测全部失效。这源于训练(Teacher Forcing)与推理(自回归)的暴露偏差,模型从未在训练中见过自己的预测错误,因此缺乏纠偏能力。
🧠 核心贡献
  • 首次在生成式推荐中引入过程奖励模型(PRM),对中间推理步骤进行密集验证,系统性地解决语义漂移问题。
  • 提出“测试时缩放定律”新范式:通过增加推理计算(扩大候选集并用PRM筛选)而非扩大模型参数,让小模型匹敌或超越大模型。
  • 设计PRM引导的波束搜索策略,利用PRM的密集反馈动态剪枝错误分支,探索高潜力语义子空间。
  • 在快手大规模平台完成线上AB测试并获得显著收益,验证了方法的工业落地价值。
🛠️ 核心方法
整体流程:在标准生成式模型(编码器-解码器)基础上,联合训练一个轻量级PRM。推理时,解码器每一步生成大量候选SID前缀,PRM并行评估这些前缀的质量,筛选出高质量前缀进入下一步,实现动态纠偏。
  • 轻量级路径级PRM:与生成骨干网络联合端到端训练。损失函数为 L_Total = L_NTP + L_InfoNCE。PRM通过负采样(从有效路径集中均匀采样)学习区分正负语义ID路径,获得检测中间错误的能力。
  • PRM引导的波束搜索:在每一步解码时,生成大量候选(K+,如4000个),然后用轻量级PRM(基于交叉注意力,重用编码器特征)并行快速评分,筛选出少量(K‘,如1000个)高质量路径进入下一步。这实现了“测试时缩放”。
  • 层次化语义ID(SID):作为方法基础,SID是离散、层次化的token序列,早期token编码粗粒度语义,后续token编码细粒度细节。PRM评估的正是这些中间SID路径的质量。
🔍 关键细节(我关心能不能复现)
  • 训练数据构造:PRM训练使用负采样策略,从有效路径集中均匀采样生成负样本,与正样本(真实交互的SID路径)构成对比学习对。
  • 损失函数与训练策略:总损失 L_Total = L_NTP(下一个token预测损失) + λ * L_InfoNCE(对比损失)。PRM通过InfoNCE损失学习区分路径质量。
  • 推理流程与代价:采用PRM引导的波束搜索(Algorithm 1)。通过Radix Top-K、减少PRM注意力头数等工程优化,最终仅增加15%参数量和10%推理延迟。论文对比了参数缩放与测试时缩放的FLOPs-性能曲线,证明后者更高效。
📈 实验效果
  • 数据/场景与指标:快手内部数据集,评估指标为Recall@100/500/1000和NDCG(排序阶段典型指标)。线上AB测试核心业务指标(App使用时长、观看时长)。
  • 主要结果:离线实验显示,PROMISE显著优于GRank、MPFormer等基线排序模型及TIGER等生成式基线。线上AB测试获得显著正向收益。
  • 最关键的消融/对比:1)验证了PRM和引导搜索各自的有效性;2)展示了测试时缩放定律:固定模型大小,增加搜索宽度(K+)能持续提升效果;小模型(如1.3B)配合宽搜索可以超越大模型(如6B)的窄搜索效果。这证明了新范式的威力。
⚠️ 风险与边界
  • 计算开销增加:虽然相对高效,但宽搜索和PRM评分仍会增加推理延迟和计算成本,在极端低延迟场景下需谨慎权衡。
  • PRM训练依赖负采样质量:负样本的构造方式直接影响PRM学习区分能力,需要精心设计采样策略。
  • 方法依赖于层次化语义ID的质量:如果SID的层次结构语义不清或量化误差大,可能会影响PRM评估和整体生成效果。
💼 工业启发
  • 保守:在现有生成式排序模型中,尝试引入一个轻量级模块对top候选进行“合理性”二次校验,作为解决bad case的补充手段。
  • 中等:在模型迭代规划中,考虑“测试时缩放”思路,不一定盲目追求参数量增长,可以评估通过增加推理计算(如更精细的搜索策略)来提升效果的性价比。
  • 激进:直接参考PROMISE框架,在语义ID生成式推荐系统中全面引入PRM进行训练和推理,从根本上解决语义漂移问题,追求效果突破。

SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation

🔗 原文: https://arxiv.org/abs/2511.19514v3
🏷️ 来源: 🤝 产学合作 | Tencent, Chinese Academy of Sciences
💡 问题与动机
利用LLM的推理能力增强推荐系统面临两大核心挑战:1) 模式发现:缺乏自动化、数据驱动的有效推理模式发现机制,依赖脆弱的手工模板或不稳定的零样本提示;2) 知识迁移:现有集成方法破坏了推理链的结构——直接提示在线推理成本高昂,而特征提取方法将推理链坍缩为单一向量,丢弃了逐步逻辑。需要一种能联合优化模式发现和结构保持迁移的统一框架。
🧠 核心贡献
  • 提出统一框架SCoTER,将模式发现和结构感知迁移视为联合优化问题,并提供了信息论证明:结构保持迁移比结构无关的替代方案能达到更紧的性能上界。
  • 设计自动化模式发现管道GVM:通过生成-验证-挖掘(GVM)流程,从数据中自动发现最优推理模式,替代手工模板。
  • 提出结构保持的集成架构:通过预计算的步骤化嵌入和顺序感知融合,将结构化CoT逻辑迁移到高效模型中,消除在线LLM推理成本。
  • 在腾讯广告平台实现线上部署与验证,获得2.14%的GMV提升,证明了框架的生产可行性。
🛠️ 核心方法
整体分为离线的模式发现和在线的结构集成两大部分。离线阶段,GVM管道使用LLM生成多样推理链,以Recall@20为奖励信号验证并挖掘出最优符号化模板,再通过结构化蒸馏得到步骤化嵌入。在线阶段,骨干模型(如TIGER)通过顺序感知融合模块,利用跨注意力机制将预计算的步骤化嵌入集成进来。
  • GVM(生成-验证-挖掘)管道:1) 生成:LLM根据用户序列生成多样化的候选推理链。2) 验证:使用Recall@20作为奖励信号,评估推理链的推荐效果。3) 挖掘:从高质量推理链中抽象出通用的符号化模板(Pattern)。
  • 结构化蒸馏:将挖掘出的模板实例化,使用轻量级模型(或冻结的LLM编码器)为每个推理步骤生成嵌入表示,得到步骤化嵌入序列。
  • 顺序感知融合:在线集成模块。使用跨注意力机制,让用户序列的每个位置可以关注相关的推理步骤嵌入,并通过自适应门控与原始序列表示融合,最终输出增强的表示用于预测。
🔍 关键细节(我关心能不能复现)
  • 训练数据构造:GVM管道利用用户历史交互序列,通过LLM生成推理链。验证阶段使用Recall@20作为奖励信号进行筛选。
  • 损失函数与训练策略:总损失包含骨干模型的推荐损失(如交叉熵)和对比学习损失(InfoNCE)。对比损失用于对齐最终推理步骤嵌入与目标物品嵌入,确保推理指向推荐目标。消融实验表明移除对比损失会导致Recall@5下降4.84%。
  • 推理流程与代价:完全消除在线LLM推理。推理时,只需加载预计算的步骤化嵌入(根据用户和上下文离线生成),并通过轻量的顺序感知融合模块与在线模型交互,计算开销极小。
📈 实验效果
  • 数据/场景与指标:四个公开基准数据集(Amazon-B, Gowalla等),评估指标Recall@5/20。线上场景为腾讯广告平台,评估指标GMV、负面反馈率等。
  • 主要结果:在公开数据集上,相比强大的TIGER骨干模型,Recall@5提升3.75%-11.59%。线上A/B测试(5%流量,一周)带来2.14%的GMV提升,用户负面反馈率和“不感兴趣”率分别下降0.24%和0.25%。
  • 最关键的消融/对比:1)验证了GVM管道相比手工模板的优势;2)证明了结构保持融合(顺序感知)优于结构坍缩的方法(如直接拼接);3)分层分析显示,对交互历史稀疏的用户提升更显著(GMV +4.10%),说明推理能力对解决冷启动有益。
⚠️ 风险与边界
  • 离线计算依赖与新鲜度:步骤化嵌入需要离线预计算,可能无法实时反映用户最新的意图变化,存在一定的信息延迟。
  • 模式泛化能力:GVM挖掘的模式在特定数据集上有效,迁移到分布差异大的新场景可能需要重新挖掘或调整。
  • 计算与存储开销:需要为大量用户-上下文对预计算和存储步骤化嵌入,带来额外的存储成本。
💼 工业启发
  • 保守:借鉴其思想,在离线分析bad case时,利用LLM生成对用户行为的“解读”或“推理”,作为特征工程师理解问题、构造新特征的灵感来源。
  • 中等:在精排模型的特征工程中,尝试引入一些离线LLM生成的、具有逻辑结构的文本描述(如“用户可能因为A而喜欢B”)的嵌入作为静态特征,观察效果。
  • 激进:在拥有强大生成式骨干(如TIGER)的排序系统中,全面部署SCoTER框架,建立从数据挖掘到在线融合的完整管道,系统性提升模型推理能力,尤其关注对长尾和稀疏用户的效果提升。

HarmonRank: Ranking-aligned Multi-objective Ensemble for Live-streaming E-commerce Recommendation

🔗 原文: https://arxiv.org/abs/2601.02955v2
🏷️ 来源: 🏭 工业界 | Kuaishou
💡 问题与动机
直播电商推荐需要平衡购买(短期价值)和用户-主播互动(如关注、评论,长期生态价值)等多个目标。工业界通常采用“多目标预测(MP)+多目标融合(ME)”的两阶段范式,其中ME阶段使用轻量级模型将多个目标分融合为统一排序分。传统ME模型使用多个独立的二分类损失进行监督,存在两大局限:1) 优化不对齐:二分类任务的优化方向与最终的排序评估指标(AUC)不一致;2) 忽略目标间依赖:将各目标视为独立,忽略了它们之间部分相关的特性(如评论和购买行为相关)。
🧠 核心贡献
  • 提出面向排序任务的多目标融合新范式,首次在ME阶段实现优化目标与评估指标(AUC)的直接对齐。
  • 设计可微的AUC优化方法,将非可微的AUC指标转化为可优化的排序问题,用于端到端训练。
  • 提出“先对齐,再融合”的两步式关系感知融合方案,显式建模并利用多目标间的依赖关系,以实现更好的帕累托前沿。
  • 在快手4亿DAU的直播电商平台全量部署,线上获得超过2%的购买增益,验证了方法的巨大业务价值。
🛠️ 核心方法
整体框架分为两大核心模块:可微AUC优化模块和两步式关系感知融合模块。模型输入为多目标预测分和少量用户特征,输出统一的融合排序分。
  • 可微AUC优化:将AUC计算转化为一个排序和问题,并利用可微排序技术(如ApproxNDCG)使其可导,构造损失函数 L_AUC = Σ_i w_i * (1 - AUC_i),其中w_i是目标权重,AUC_i是第i个目标的AUC值。
  • 两步式关系感知融合
1. 对齐步骤:使用自注意力机制,让每个目标的表示去关注其他目标的表示,学习目标间的共享信息和依赖关系,输出“对齐后”的目标编码。
2. 融合步骤:将用户个性化特征压缩为一个查询向量,通过交叉注意力机制与对齐后的目标编码进行交互,实现用户特异性的融合,最终输出 ensemble score。
🔍 关键细节(我关心能不能复现)
  • 训练数据构造:使用标准的曝光点击日志,每个样本包含用户特征、物品特征、多目标预测分(来自上游MP模型)以及多个行为的二值标签(购买、关注、评论等)。
  • 损失函数与训练策略:总损失为各目标可微AUC损失的加权和:L = Σ_i w_i * (1 - AUC_i)。权重w_i可以手动设定或根据业务重要性调整。训练时采用 mini-batch 内的样本对来计算AUC近似值。
  • 推理流程与代价:推理时仅为前向传播过程,计算非常轻量,仅涉及几层神经网络和注意力计算,与传统的ME模型推理开销相当,适合线上高并发场景。
📈 实验效果
  • 数据/场景与指标:快手直播电商内部数据集(Kuaishou-ELive),评估指标为各目标的AUC以及加权AUC。线上评估核心购买指标及互动指标(评论、关注、观看时长、点赞)。
  • 主要结果:离线实验显示,HarmonRank在加权AUC上显著优于MMoE、PLE等基线方法。线上A/B测试(为期5天)显示,核心购买指标提升+2.635%,其他互动指标也有全面正向收益(+0.29% 至 +3.034%)。
  • 最关键的消融/对比:1)验证了可微AUC优化相比传统分类损失带来的提升;2)证明了两步融合(先对齐再融合)优于一步直接融合;3)分析了不同目标间相关性对模型效果的影响。
⚠️ 风险与边界
  • 可微AUC近似的准确性:在batch size较小或正负样本极度不均衡时,batch内计算的近似AUC可能与全局AUC存在偏差,影响优化稳定性。
  • 目标权重的敏感性:最终效果依赖于各目标AUC损失的权重设置,需要根据业务目标仔细调参或设计自适应机制。
  • 场景特异性:方法在目标间存在较强相关性的场景(如直播电商)收益更明显,在目标相对独立的场景下收益可能有限。
💼 工业启发
  • 保守:在现有的多目标融合模型中,将损失函数从多个二分类交叉熵,改为尝试优化加权AUC(可通过可微排序库实现),这是相对低风险的改进点。
  • 中等:在精排后的重排或混排阶段,设计一个轻量级模型,显式地建模不同业务目标(如点击、点赞、转发)之间的关系,使用注意力机制进行融合,替代简单的公式加权。
  • 激进:在业务目标复杂且相互关联的场景(如电商、直播、信息流),全面重构多目标融合阶段,采用HarmonRank的两步对齐范式,追求多目标综合效果的最优平衡,尤其适用于需要兼顾短期和长期价值的平台。
  • 推荐系统
  • 日报
  • AI 技术日报 - 2025-12-27推荐算法日报 - 2026-01-08
    Loading...