type
status
date
slug
summary
tags
category
icon
password
priority
# 推荐算法日报 | 2026-01-30
Section 1: 📊 Trend Analysis
- 🔥 精排模型规模化与效率的协同进化:今日多篇论文聚焦于如何在保证线上推理效率的前提下,突破精排模型规模化的瓶颈。字节跳动Zenith提出Prime Token和Tokenwise参数化,解决模型加深时的表征同质化问题;IBM的Landmark Pooling则从序列表示层面优化长文本检索。核心思路都是通过精巧的架构设计,而非简单的参数堆叠,来实现更优的“性能-效率”权衡。
- 💡 生成式推荐范式的多元化演进:生成式推荐正从单一的自回归解码范式,向更灵活、高效的并行生成范式演进。阿里巴巴的MDGR创新性地引入掩码扩散过程,实现了无序、并行的语义ID生成;小红书的SAGE则从优化策略入手,解决生成式推荐中的冷启动和多样性问题。这表明业界正从不同角度探索如何将LLM/生成模型的潜力更高效地应用于推荐系统。
- 💡 面向业务目标的精细化建模与优化:工业界研究越来越注重对复杂业务目标的端到端建模。阿里妈妈针对NetCVR的级联延迟反馈问题,提出了包含因果去偏的在线训练框架;快手的C2在自动出价场景中,为Decision Transformer引入了约束感知损失。这些工作都体现了从“预测准确率”到“业务指标提升”的思维转变,解决方案更具业务针对性。
Section 2: 📰 Daily Digest
1. Zenith: Scaling up Ranking Models for Billion-scale Livestreaming Recommendation
🔗 原文: https://arxiv.org/abs/2601.21285v1
🏷️ 来源: 🤝 产学合作 | ByteDance, TikTok, NC State University
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 字节跳动提出解决精排模型规模化瓶颈的创新架构,线上收益显著,方法扎实有深度。
📊 评分理由: 工业界(字节跳动/TikTok)。提出Zenith/Zenith++精排架构,核心创新是Prime Token设计和Tokenwise参数化,解决了模型规模化中的token同质化问题。线上AB测试在TikTok Live获得显著收益:CTR AUC +1.05%,质量观看时长/用户 +8.11%。方法创新性强(Token Fusion/Token Boost模块、TMHSA、TSMoE),实验扎实(168B样本、多尺度对比、消融分析),对业界大规模精排模型设计有重要参考价值。5分。
📝 摘要: 本文针对精排模型规模化中遇到的推理延迟和表征同质化瓶颈,提出了Zenith/Zenith++架构。核心创新在于将数千个原始特征聚合为少量高维Prime Token,并设计了Token Fusion(负责特征交互)和Token Boost(进行tokenwise参数化)两大模块,以维持token异质性,这是模型有效规模化的关键。通过引入Tokenwise MoE和高效的GroupedGEMM计算优化,在保持低推理FLOPs的同时将模型扩展至近十亿参数。在TikTok Live的168B样本数据集上,相比SOTA基线获得显著离线提升;线上AB测试带来CTR AUC +1.05%和质量观看时长/用户 +8.11%的收益,为大规模精排模型设计提供了重要工业实践。
〰️
2. Masked Diffusion Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.19501v2
🏷️ 来源: 🤝 产学合作 | Alibaba, Wuhan University
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 生成式推荐范式突破,用掩码扩散替代自回归,线上收益显著,方法扎实创新。
📊 评分理由: 工业界(阿里巴巴)。提出基于掩码扩散的生成式推荐新范式,线上广告收入+1.20%、GMV+3.69%。核心贡献在于:1)将自回归生成范式重构为并行掩码扩散过程,解决了顺序解码的全局依赖建模、用户兴趣异质性和推理效率三大问题;2)设计了全局课程噪声调度和基于历史的掩码分配等针对性训练策略;3)实现了推理阶段的两阶段并行解码。方法创新性强,线上收益显著,对生成式推荐方向有范式突破价值。5分。
📝 摘要: 本文提出MDGR,一种基于掩码扩散的生成式推荐新范式,旨在解决现有自回归解码方法的三大局限:难以建模全局依赖、忽视用户兴趣异质性、推理效率低。方法采用并行码本作为基础,将物品语义ID(SID)的生成重构为多步“掩码-去噪”过程。训练时设计了动态的全局课程噪声调度和基于历史的掩码分配策略,以提供更有效的监督;推理时采用基于热身的二阶段并行解码策略加速生成。在公开和工业数据集上,MDGR超越十种SOTA基线,Recall@5最高提升10.78%。线上部署于广告平台,带来收入+1.20%和GMV+3.69%的显著收益。
〰️
3. LEMUR: Learned Multi-Vector Retrieval
🔗 原文: https://arxiv.org/abs/2601.21853v1
🏷️ 来源: 🎓 学术界 | University of Helsinki
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出高效多向量检索框架LEMUR,将MaxSim搜索转化为学习问题并简化为单向量ANNS,速度提升一个数量级。
📊 评分理由: 学术界(赫尔辛基大学)。核心贡献是提出一个高效的多向量检索框架LEMUR,将复杂的MaxSim相似度计算转化为监督学习问题,并进一步简化为单向量近似最近邻搜索。方法新颖且实用,在6个BEIR基准数据集和多个多向量模型(ColBERTv2、现代文本模型、视觉文档模型)上进行了系统评估,相比SOTA方法(MUVERA、PLAID等)实现了数量级的速度提升(5-11倍)。虽无线上AB验证,但实验扎实、方法通用性强,对工业界召回阶段的向量检索优化有直接且重要的参考价值。4分。
📝 摘要: 多向量模型(如ColBERT)虽能提供更优的召回质量,但其MaxSim相似度计算开销巨大,导致高延迟。本文提出LEMUR框架,通过两阶段问题约简来加速多向量检索:首先,将MaxSim搜索建模为一个监督学习任务,用一个简单的两层MLP学习从查询token嵌入到其对文档相似度贡献的映射;然后,将训练好模型的推理过程转化为其潜在空间中的单向量最大内积搜索,从而可以利用高度优化的单向量ANNS库(如HNSW)。实验表明,在达到相同召回率时,LEMUR比现有SOTA方法快5-11倍,且对不同多向量嵌入模型鲁棒,为工业界召回系统提供了高效的检索优化方案。
〰️
4. Influence Guided Sampling for Domain Adaptation of Text Retrievers
🔗 原文: https://arxiv.org/abs/2601.21759v1
🏷️ 来源: 🏭 工业界 | IBM
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: IBM提出轻量级自适应数据采样框架,显著提升检索模型领域自适应效果,计算高效。
📊 评分理由: 工业界(IBM Research)。核心贡献是面向检索模型(Retriever)提出一种轻量、自适应的训练数据采样策略Inf-DDS,用于领域自适应。方法结合了强化学习(RL)和影响力估计(Influence Estimation),通过在线代理模型计算影响力分数作为奖励,指导采样权重更新。实验在多个大规模检索基准(BEIR、MLDR、Sentence-Transformers)上验证了有效性,显著超越静态采样和梯度基线,且计算开销更小(1.5x-4x)。工作解决了模型训练中数据混合采样的实际问题,方法新颖且实验扎实,有明确的工业落地价值。虽未提及线上AB,但来自工业研究实验室,问题和方法均具实用性。4分。
📝 摘要: 本文针对检索模型在混合多领域数据上训练时,如何自适应地采样数据以优化目标领域性能的问题,提出了Inf-DDS框架。该方法将采样策略学习形式化为一个双层优化问题,使用参数化的打分网络,并基于影响力估计(Influence Estimation)计算奖励信号,以迭代更新每个数据集的采样概率。相比传统的均匀采样、按大小比例采样或依赖专家权重的方法,Inf-DDS能动态地优先选择对目标开发集性能提升最大的数据。实验在跨领域检索基准上显示,其性能优于现有梯度采样方法,同时GPU计算开销减少了1.5到4倍,为检索模型的领域自适应提供了一种高效、数据驱动的采样方案。
〰️
5. UniRec: Unified Multimodal Encoding for LLM-Based Recommendations
🔗 原文: https://arxiv.org/abs/2601.19423v2
🏷️ 来源: 🤝 产学合作 | UIUC, Meta
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 为LLM-based推荐设计了统一的多模态异构特征编码器,显著提升模型对复杂业务特征的理解能力。
📊 评分理由: 学术界主导(UIUC学生一作,Meta挂名合作)。核心贡献是解决LLM-based推荐中多模态异构特征(文本、图像、分类、数值)的统一编码问题,提出了Schema-Aware Triplet表示和Hierarchical Q-Former架构。方法设计扎实,在多个公开数据集上显著超越SOTA(MRR提升最高达15.6%),消融实验充分。虽无线上验证,但问题定义清晰、方案创新且具有明确的工业落地潜力(如电商、本地生活场景)。4分。
📝 摘要: 本文针对LLM-based推荐中难以有效处理文本、图像、分类、数值等异构业务特征的问题,提出了UniRec统一多模态编码器。其核心设计包括:1)使用模态特定编码器生成一致嵌入;2)采用Schema-Aware Triplet(属性名、类型、值)表示法,分离模式与原始输入,保留语义区别;3)使用分层Q-Former建模用户历史序列的嵌套结构(用户-物品-属性)。UniRec通过预训练(重构+对比损失)和微调(将用户表征作为soft prompt输入LLM)两阶段训练,学习对齐的表征。在多个真实世界基准测试中,UniRec显著超越现有的多模态和LLM-based推荐模型,MRR提升最高达15.6%,为LLM理解复杂业务特征提供了有效的编码方案。
〰️
6. Thinking Broad, Acting Fast: Latent Reasoning Distillation from Multi-Perspective Chain-of-Thought for E-Commerce Relevance
🔗 原文: https://arxiv.org/abs/2601.21611v1
🏷️ 来源: 🤝 产学合作 | Alibaba, Zhejiang University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 阿里巴巴电商搜索相关性建模:多视角CoT蒸馏,线上RPM+1.42%,工程落地扎实。
📊 评分理由: 工业界主导(阿里巴巴)。核心贡献是LLM知识蒸馏在电商搜索相关性建模中的系统化实践。方法上提出多视角CoT和潜在推理提取器,创新点明确且实用。线上AB验证了商业收益(RPM +1.42%),是典型的工业界落地论文。虽非范式级突破,但工程细节扎实、效果显著,对业界有较强参考价值。4分。
📝 摘要: 本文针对电商搜索相关性建模中LLM推理延迟高、传统模型难以处理复杂语义的问题,提出了一种结合多视角思维链(CoT)和潜在推理知识蒸馏(LRKD)的框架。首先,利用LLM(Qwen3-14B)作为教师模型,生成涵盖用户意图、属性匹配和商业规则的多视角CoT推理文本,并通过SFT+DPO优化其推理质量。然后,提出LRKD方法,将CoT文本的语义嵌入(而非软标签)作为蒸馏目标,使学生模型(BERT)配备一个轻量级潜在推理提取器(如GAT),在推理时内部化LLM的复杂推理能力,而无需生成文本。在阿里巴巴电商搜索广告平台的线上A/B测试中,该方法带来了CTR+0.48%和RPM+1.42%的显著收益。
〰️
7. LMK > CLS: Landmark Pooling for Dense Embeddings
🔗 原文: https://arxiv.org/abs/2601.21525v1
🏷️ 来源: 🏭 工业界 | IBM Research
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出简单有效的Landmark Pooling,显著提升长文本检索性能,对推荐系统的文本表示学习有直接启发。
📊 评分理由: 工业界(IBM Research)。工作聚焦于检索和推荐系统中核心的文本表示学习问题,提出了一种新颖的Landmark Pooling方法,用于改进长上下文场景下的序列编码。方法简单有效,实验扎实,在多个长文本检索基准上(如MLDR、LongEmbed)取得了显著提升,并分析了CLS和Mean Pooling的固有偏差。虽无线上AB验证,但来自工业研究实验室,方法具有明确的落地潜力和工程价值。4分。
📝 摘要: 本文指出,在稠密检索中常用的[CLS]池化和平均池化存在系统性弱点:[CLS]偏向序列前部,平均池化会稀释局部显著信号。为此,提出了Landmark (LMK) Pooling方法:将输入序列分块,在块间插入特殊的Landmark token,然后对这些Landmark token的嵌入进行平均池化,得到最终序列表示。这种方法平衡了全局信息和局部显著性,在长上下文检索任务(如MLDR、LongEmbed)上取得了显著性能提升(例如P@1指标从44.1提升至70.7),同时不损害短上下文任务性能。实验还表明,将LMK Pooling集成到RetroMAE预训练范式中,能持续提升下游任务表现,为构建更鲁棒的文本嵌入提供了简单有效的改进。
〰️
8. C2:Cross learning module enhanced decision transformer with Constraint-aware loss for auto-bidding
🔗 原文: https://arxiv.org/abs/2601.20257v2
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 快手广告团队对Decision Transformer的针对性改进,增强序列关联建模和约束感知,离线效果扎实。
📊 评分理由: 工业界(快手)。针对广告自动出价场景,对Decision Transformer进行两项改进:引入跨序列注意力增强状态-动作-RTG的关联建模,设计约束感知损失函数引导学习最优轨迹。在公开数据集AuctionNet上取得稳定离线收益(最高+3.23%),消融实验充分。方法针对性强,有明确的业务价值,但缺乏线上AB验证,创新属于DT框架内的有效改进而非范式突破。4分。
📝 摘要: 本文针对广告自动出价场景,改进了Decision Transformer (DT)模型,提出C2框架。针对DT在状态、动作、回报序列(RTG)间关联建模不足,以及对最优/次优行为学习不加区分的问题,C2引入两大核心创新:1)跨学习模块(CLB),通过交叉注意力机制加强序列间的关联建模;2)约束感知损失(CL),将预算和单次转化成本(CPA)约束融入损失函数,引导模型选择性地学习满足约束的最优轨迹。在公开的AuctionNet数据集上的离线评估表明,C2在不同预算设置下均能取得稳定的性能提升(最高+3.23%),消融实验验证了CLB和CL的互补协同作用。
〰️
9. SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.21452v1
🏷️ 来源: 🏭 工业界 | Xiaohongshu
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 针对生成式推荐优化痛点,提出序列级自适应梯度框架,显著提升冷启动和多样性。
📊 评分理由: 工业界(小红书)。提出面向生成式推荐的序列级自适应梯度优化框架SAGE,解决GBPO的“对称保守”问题,在离线实验中显著提升冷启动召回(+43%~63%)和多样性(+5.9%~10.36%)。方法创新性强,针对生成式推荐的核心优化痛点(冷启动、多样性、多目标),有明确的线上问题驱动。但缺乏线上AB验证,且实验仅在公开数据集进行,工业规模验证不足。4分。
📝 摘要: 本文针对生成式推荐在RLHF优化阶段存在的“对称保守”问题(抑制冷启动、导致多样性崩溃),提出了序列级自适应梯度进化框架SAGE。SAGE包含两大创新:1)序列级信号解耦:结合几何平均重要性比率和解耦的多目标优势,消除token级方差,解决“奖励坍塌”问题;2)非对称自适应动态:构建动态梯度流形,对高潜力冷启动物品应用“助推因子”实现超线性更新,并采用“熵感知惩罚”来打破信息茧房。在公开数据集上的实验表明,SAGE能有效解锁冷启动流量(召回提升43%~63%)并维持推荐多样性(熵指标提升5.9%~10.36%),同时保持了GBPO的数值稳定性。
〰️
10. Modeling Cascaded Delay Feedback for Online Net Conversion Rate Prediction: Benchmark, Insights and Solutions
🔗 原文: https://arxiv.org/abs/2601.19965v2
🏷️ 来源: 🤝 产学合作 | Alibaba, Xiamen University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 首个系统解决NetCVR级联延迟反馈的工业级方案,包含新数据集、新问题定义和端到端在线训练框架。
📊 评分理由: 工业界主导(阿里妈妈 & 厦门大学合作)。核心贡献是提出并系统解决了电商推荐中NetCVR(净转化率)预测的级联延迟反馈问题。方法创新性强,包含级联建模、阶段去偏和延迟感知排序损失,在公开数据集CASCADE上取得显著离线提升(RI-AUC +12.41%)。虽无线上AB结果,但问题定义、数据集和解决方案均源于真实业务痛点,对电商、广告等转化后效优化场景有很强的工业落地参考价值。4分。
📝 摘要: 本文首次系统定义了电商推荐中NetCVR(净转化率,即购买且不退款)预测的级联延迟反馈问题,并开源了首个大规模数据集CASCADE。针对点击-转化和转化-退款两个方向相反、存在延迟的级联过程,提出了TESLA在线连续建模框架。TESLA采用CVR和退款率的级联建模架构,通过阶段式重要性加权对两个延迟阶段进行因果去偏,并设计了延迟感知排序损失。实验表明,级联建模优于直接建模NetCVR,TESLA在CASCADE数据集上实现了NetCVR预测RI-AUC 12.41%的绝对提升。该工作为优化考虑退款后效的推荐业务目标提供了完整的解决方案和数据基准。
Section 3: 🔍 Deep Dive
Zenith: Scaling up Ranking Models for Billion-scale Livestreaming Recommendation
🔗 原文: https://arxiv.org/abs/2601.21285v1
🏷️ 来源: 🤝 产学合作 | ByteDance, TikTok, NC State University
💡 问题与动机
传统精排模型在规模化时面临两大瓶颈:1)简单增加层数或隐藏单元会导致表征同质化(token similarity急剧上升),性能提升遇到瓶颈;2)复杂的架构设计往往带来不可接受的推理延迟,难以满足线上毫秒级响应要求。本文旨在设计一个既能有效扩展模型容量,又能保持低推理开销的新型精排架构。
🧠 核心贡献
- 提出Zenith/Zenith++架构:核心思想是处理少量高维的Prime Token,并通过Token Fusion和Token Boost模块进行tokenwise处理,以维持token异质性。
- 揭示并利用Token异质性:通过实验发现,token异质性是模型有效规模化的关键,传统FFN会导致同质化。Zenith的tokenwise设计(如TMHSA, TSMoE)能有效维持异质性。
- 系统性的训练与推理优化:提出了包括Prime Tokenization减少计算量、GroupedGEMM加速tokenwise计算、针对MoE的长warm-up和辅助损失等一系列工程优化,确保十亿参数模型可训练、可部署。
🛠️ 核心方法
Zenith架构包含三大步骤:Prime Tokenization → Token Fusion → Token Boost。首先将4552个原始特征聚合为32个高维Prime Token。然后,Token Fusion模块(如Retokenized Self-Attention)负责建模这些Prime Token之间的交互。最后,Token Boost模块(如Tokenwise SwiGLU或Tokenwise Sparse MoE)对每个Token进行独立的非线性变换,增强其表征能力并防止同质化。
- 关键技术点1:Prime Tokenization:按特征类别(如用户ID、序列、通用特征)分组聚合,大幅减少后续模块处理的token数量,是降低计算量的基础。
- 关键技术点2:Tokenwise Multi-Head Self-Attention (TMHSA):在Token Fusion中,为每个token分配独立的QKV投影权重,使注意力计算能捕捉token特有的交互模式。
- 关键技术点3:Tokenwise Sparse Mixture of Experts (TSMoE):在Token Boost中,每个token独立地路由到Top-K个专家网络,实现了总参数量(916M)的大幅增加,而激活参数量(383M)和推理FLOPs(0.202 GFLOP/example)保持低位。
🔍 关键细节(我关心能不能复现)
- 训练数据:基于TikTok Live的1680亿条用户-直播交互实例,特征维度4552,包含98个多任务目标。
- 损失函数与训练策略:多任务学习。针对TSMoE,设计了超长学习率warm-up(100万步线性增长)和两种辅助损失:load balancing loss(平衡专家负载)和z-loss(稳定路由器logits)。
- 推理流程与代价:输入特征经Prime Tokenization后,顺序通过Token Fusion和Token Boost模块。使用NVIDIA cuBLAS的GroupedGEMM原语打包多个token的独立矩阵乘法,减少kernel启动开销。Zenith++模型单样本推理FLOPs为0.202 GFLOP。
📈 实验效果
- 数据/场景与指标:TikTok Live数据集,离线指标:AUC, Logloss, UAUC;线上指标:CTR AUC, Quality Watch Session/User, Quality Watch Duration/User。
- 主要结果:离线实验,Zenith++ (383M激活/916M总参) 相比DCN-V2基线,在Medium规模下AUC +0.46%, Logloss -0.64%, UAUC +0.78%。线上AB测试:CTR AUC +1.05%, Quality Watch Session/User +9.93%, Quality Watch Duration/User +8.11%。
- 最关键的消融/对比:图4显示,Zenith的tokenwise设计(TMHSA+TSMoE)能有效维持深层模型的token异质性(相似度低),而非tokenwise的FFN会导致相似度急剧上升至接近1。这直接证明了其设计原理的有效性。
⚠️ 风险与边界
- 场景特异性:Prime Token的分组策略可能高度依赖于业务特征体系(如直播场景的ID、序列特征),在其他场景(如纯商品推荐)可能需要调整。
- 工程实现复杂度:GroupedGEMM等优化依赖特定硬件库(NVIDIA cuBLAS),且MoE的训练稳定性调参(warm-up步数、辅助损失权重)需要较多经验。
- 冷启动与稀疏性:论文未深入讨论在特征极度稀疏或新物品/用户上的表现,大规模MoE对稀疏模式的学习效率存疑。
💼 工业启发
- 保守:可以借鉴其Prime Tokenization的思想,对现有模型的特征嵌入层进行分组聚合,作为减少计算量的预处理步骤。
- 中等:在尝试加深精排模型时,引入tokenwise的FFN变体(如TSwiGLU),作为防止表征退化的常规操作。
- 激进:在计算资源充足且对延迟有严格预算的场景下,全盘引入Zenith++架构,并配套实现TSMoE和相应的训练稳定性优化,以追求极致的模型容量和效果。
〰️
Masked Diffusion Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.19501v2
🏷️ 来源: 🤝 产学合作 | Alibaba, Wuhan University
💡 问题与动机
现有基于语义ID(SID)的生成式推荐(GR)大多沿用语言模型的自回归解码范式,存在三大局限:1)顺序解码难以联合建模SID多个token间的全局依赖;2)固定的解码顺序无法适配用户对物品属性关注顺序的异质性;3)自回归解码效率低,难以满足线上实时要求。需要一种能并行解码、支持灵活生成顺序的新范式。
🧠 核心贡献
- 提出掩码扩散生成式推荐(MDGR)新范式:首次将离散扩散模型引入GR,将生成过程重构为多步“掩码-去噪”,支持无序、并行解码。
- 设计动态训练策略:提出全局课程噪声调度(随训练进度增加掩码数)和基于历史的掩码分配(根据用户历史掩码稀有token),构建更具挑战性的监督信号。
- 实现高效推理解码:提出基于热身的二阶段并行解码策略,先通过少量单步解码稳定关键语义锚点,再并行解码剩余位置,兼顾质量与效率。
🛠️ 核心方法
MDGR框架包含三个核心部分:并行码本、动态训练策略、两阶段推理。首先,采用基于OPQ的并行码本将物品语义向量量化为多token SID,每个token对应相对独立的语义维度。训练时,对目标SID随机掩码部分位置,扩散模型(基于Transformer)以前缀序列和未掩码部分为条件,预测被掩码位置的token。推理时,从全掩码序列开始,迭代进行去噪。
- 关键技术点1:并行码本:为扩散生成提供结构基础,使得每个位置的生成可以相对独立,避免了自回归中的顺序依赖。
- 关键技术点2:全局课程噪声调度:训练初期掩码少(任务简单),后期掩码多(任务难),使模型逐步学习从易到难的生成任务。
- 关键技术点3:基于历史的掩码分配:对于当前用户,优先掩码其历史中出现频率低的SID token,迫使模型学习补全用户不熟悉但可能感兴趣的属性,增强个性化。
🔍 关键细节(我关心能不能复现)
- 训练数据构造:物品语义向量由Qwen3-8B生成,然后通过OPQ量化得到SID(如4个token,词汇表大小1024)。用户历史序列由物品SID组成。
- 损失函数与训练策略:训练目标是预测被掩码位置的token,使用交叉熵损失。动态噪声调度:掩码比例r从0.1线性增加到0.9。基于历史的掩码:根据用户历史中每个token的出现频率计算权重,低频token有更高概率被选中掩码。
- 推理流程与代价:采用两阶段并行解码。第一阶段(热身):进行T1步单位置解码,每次选择置信度最高的位置更新。第二阶段(并行):进行T2步,每次将剩余位置分组,并行解码更新。总步数T=T1+T2远小于SID长度,实现加速。
📈 实验效果
- 数据/场景与指标:公开数据集(Beauty, Sports)和工业数据集,指标为Recall@N, NDCG@N。线上A/B测试指标:Revenue, GMV。
- 主要结果:在公开数据集上,MDGR相比最佳基线(Cobra)Recall@5提升最高达10.78%。在工业数据集上同样显著领先。线上A/B测试:广告收入+1.20%, GMV+3.69%。
- 最关键的消融/对比:消融实验表明,移除课程噪声调度或基于历史的掩码分配,性能均会下降;两阶段解码相比完全并行解码或完全自回归解码,在效果和效率上取得更好平衡。
⚠️ 风险与边界
- 码本质量依赖:SID的语义区分度严重依赖前置的语义向量生成模型(Qwen3-8B)和量化方法,若码本质量差,后续生成效果上限低。
- 扩散步数权衡:扩散步数(T)需要权衡效果和速度。步数少可能生成质量不稳定,步数多则延迟高。
- 候选集生成与检索:MDGR生成的是SID,需要高效的SID到物品ID的倒排索引进行检索。如何保证生成多样性并覆盖热门/长尾物品,是需要设计的环节。
💼 工业启发
- 保守:在现有自回归GR框架中,尝试引入“课程学习”思想,逐步增加生成难度(如逐步增加生成序列长度)。
- 中等:对于已部署语义ID的系统,可以试验将MDGR作为生成器,替代现有的自回归模型,重点关注其带来的效果提升和推理速度变化。
- 激进:在新业务中,直接采用“预训练大模型生成语义向量 → OPQ量化建码本 → MDGR训练”的全套流程,构建新一代的生成式推荐系统,并配套设计高效的SID检索链路。