type
status
date
slug
summary
tags
category
icon
password
priority
# 推荐算法日报 | 2026-01-27
Section 1: 📊 Trend Analysis
- 🔥 生成式推荐(Generative-Rec)的工业落地加速:今日多篇论文(S²GR, DualGR, GenCI)均围绕生成式推荐范式展开,并完成了线上AB测试验证。这表明生成式推荐正从学术探索快速走向工业实践,尤其在召回和排序阶段展现出替代传统多阶段管道的潜力。核心挑战已从“能否生成”转向“如何高效、鲁棒地生成”,并涌现出针对长短兴趣、推理路径、意图建模等具体问题的创新解法。
- 💡 模型架构与优化目标的深度对齐:今日论文显示出一种趋势:不再满足于通用架构+特定损失,而是从推荐任务的根本目标(如Top-K排序、多目标、意图建模)出发,推导或设计出具有特定归纳偏置的模型架构。例如,TopKGAT从Precision@K梯度推导出图注意力更新公式,INFNet通过Hub Token实现任务感知的特征交互,SparseCTR针对长序列行为分布设计稀疏注意力模式。这标志着推荐模型设计正变得更加“任务驱动”和“理论指导”。
- 🔧 评估与部署的工程化创新:工业界论文不仅关注模型本身,也重视评估和部署环节的优化。PRECISE框架革新了LLM评估的标注范式,用统计方法大幅降低人工成本;RQFedRec从根本上重构了联邦推荐的通信范式以降低开销;多篇工作(S²GR, DualGR, INFNet, SparseCTR)均报告了严格的线上AB测试收益和延迟分析。这反映了工业界对技术全链路(训练、评估、推理、部署)综合优化的持续追求。
Section 2: 📰 Daily Digest
1. S$^2$GR: Stepwise Semantic-Guided Reasoning in Latent Space for Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.18664v1
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手提出生成式推荐新范式,通过分层语义对齐的stepwise reasoning显著提升推荐效果,线上验证有效。
📊 评分理由: 工业界(快手)。提出生成式推荐中stepwise reasoning新范式,线上AB验证获得显著业务收益(总使用时长+0.092%)。核心创新在于将thinking token与SID分层语义对齐,通过对比学习进行显式监督,解决了现有推理方法计算不均衡和路径不可靠的问题。方法设计巧妙,实验扎实,对生成式推荐和语义ID方向有重要启发。5分。
📝 摘要: 本文针对生成式推荐(GR)中现有方法缺乏深度推理能力的问题,提出了S²GR框架。其核心创新是“逐步推理”机制:在自回归生成每个层次的语义ID(SID)代码前,插入一个“思考token”,该token被设计为显式代表下一层SID对应的粗粒度语义类别。通过对比学习,将思考token的表示与真实SID代码所属的聚类中心对齐,从而为推理路径提供了可解释、可验证的监督信号。该方法解决了传统推理方法中计算焦点不均衡和推理路径不可靠的问题。在快手短视频平台的线上AB测试中,S²GR带来了总使用时长+0.092%等显著业务提升,验证了其工业有效性。
〰️
2. DualGR: Generative Retrieval with Long and Short-Term Interests Modeling
🔗 原文: https://arxiv.org/abs/2511.12518v2
🏷️ 来源: 🤝 产学合作 | Kuaishou, University of Science and Technology of China
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 快手生成式检索工业实践,线上AB验证显著收益,方法创新针对性强。
📊 评分理由: 工业界主导(快手)。论文核心是解决生成式检索(Generative Retrieval)在短视频推荐场景落地的三大真实挑战:长短兴趣干扰、上下文噪声、曝光未点击反馈缺失。提出DualGR框架,包含双分支路由、搜索式解码和曝光感知损失三个创新模块,在快手双列探索流完成线上AB测试,获得视频播放量+0.527%、观看时长+0.432%的显著收益。这是生成式检索在工业界大规模落地的扎实工作,方法创新针对性强,线上效果solid,对业界有很强的参考价值。5分。
📝 摘要: 本文提出了DualGR,一个面向工业短视频召回场景的生成式检索框架。针对双列探索流对多样性要求高、需同时建模长短兴趣的挑战,DualGR设计了三个核心模块:1)双分支长短兴趣路由器(DBR),分别建模稳定偏好和热点兴趣,推理时并行解码后合并结果;2)搜索式SID解码(S2D),在预测细粒度ID时将候选约束在当前粗粒度桶内,提升效率并控制噪声;3)曝光感知NTP损失(ENTP-Loss),将未点击曝光作为粗粒度硬负样本,促进非兴趣消退。在快手线上AB测试中,DualGR作为额外召回通道带来了视频播放量+0.527%和观看时长+0.432%的显著提升。
〰️
3. PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation
🔗 原文: https://arxiv.org/abs/2601.18777v1
🏷️ 来源: 🏭 工业界 | Amazon
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: Amazon工业实践:用少量人工+大量LLM标注高效评估搜索系统,指导LLM查询改写上线并获显著收益。
📊 评分理由: 工业界(Amazon)。核心贡献是提出PRECISE框架,用少量人工标注+大量LLM标注来估计搜索/推荐系统指标(如Precision@K),显著降低标注成本。方法上扩展了Prediction-Powered Inference(PPI)到子实例标注(query-document级),并通过稀疏K-hot向量将计算复杂度从O(2^|C|)降至O(2^K)。在真实印度电商搜索场景中,用该框架评估LLM查询改写方案,指导了线上A/B测试和部署,带来显著业务收益(日销售额+407bps)。方法扎实,线上验证充分,对工业界评估LLM应用有重要参考价值。4分。
📝 摘要: 本文提出PRECISE框架,旨在解决使用LLM作为自动评估器(Judge)时存在的偏差问题,并大幅降低搜索/推荐系统评估的标注成本。该方法结合少量(如100个)人工标注查询和大量(如10,000个)LLM标注的未标注查询,通过扩展Prediction-Powered Inference(PPI)方法,生成对Precision@K等排序指标的无偏、低方差估计。关键创新在于将积分空间从整个文档库重新表述为仅考虑top-K结果的K-hot向量空间,使计算可行。在Amazon印度电商搜索场景中,该框架成功指导了基于Claude 3的查询改写系统的离线评估与线上部署,最终带来日销售额+407bps等显著业务提升。
〰️
4. Feature-Indexed Federated Recommendation with Residual-Quantized Codebooks
🔗 原文: https://arxiv.org/abs/2601.18570v1
🏷️ 来源: 🤝 产学合作 | Fudan University, Microsoft Research Asia
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出联邦推荐新通信范式,用残差量化码本替代原始物品嵌入,实现高效且鲁棒的跨客户端信息聚合。
📊 评分理由: 学术界主导(复旦+微软研究院)。核心贡献是联邦推荐中通信范式的创新,提出特征索引(Feature-Indexed)替代传统的ID索引,并设计了基于残差量化的双通道(语义/协同)码本聚合机制。方法新颖,实验扎实,在5个数据集上显著超越SOTA联邦推荐基线,同时大幅降低通信开销。虽无线上AB验证,但问题定义清晰、解决方案系统,对联邦推荐领域有明确的启发和落地潜力。4分。
📝 摘要: 本文针对联邦推荐中传统“ID索引”通信范式(传输完整物品嵌入)导致的通信开销大、泛化性差、对噪声敏感等问题,提出了一种全新的“特征索引”通信范式。核心方法RQFedRec使用残差量化(RQ-Kmeans)为每个物品生成一组离散的码ID。客户端不再上传物品嵌入,而是上传/下载固定大小的、共享的语义和协同码本。服务器聚合码本而非物品嵌入,使得更新信息能跨相似物品传播,天然缓解冷启动问题,并对客户端噪声更鲁棒。实验在多个真实数据集上表明,RQFedRec在显著降低通信开销的同时,推荐效果超越了现有SOTA联邦推荐方法。
〰️
5. Token-level Collaborative Alignment for LLM-based Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.18457v1
🏷️ 来源: 🤝 产学合作 | USTC, Ant Group, Rutgers
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 为LLM-based生成式推荐与协同过滤信号的深度融合,提供了一个精巧、可插拔的优化层对齐方案。
📊 评分理由: 学术界主导(中科大、蚂蚁集团合作)。提出了一种新颖的、模型无关的框架,用于在LLM-based生成式推荐中显式地融入协同过滤信号。核心创新在于通过Collaborative Tokenizer和Soft Label Alignment,在优化层面(而非特征层面)桥接了CF的item-level偏好与LLM的token-level预测。方法扎实,实验充分,在多个LLM推荐基线上有显著提升,并深入分析了CF信号强度与性能的关系。虽无线上验证,但对LLM与CF深度融合这一前沿方向有重要启发价值。4分。
📝 摘要: 本文解决了LLM-based生成式推荐中难以有效融入协同过滤(CF)信号的核心难题。现有方法通常将CF作为上下文提示或表示偏置,无法在优化层面显式引导LLM生成。为此,作者提出了TCA4Rec框架,包含两个核心组件:1)协同分词器(Collaborative Tokenizer),将传统CF模型(如SASRec)的物品级预测logits投影到与LLM词表对齐的token级分布;2)软标签对齐(Soft Label Alignment),将这些CF-informed分布与原始one-hot监督结合,共同优化一个软化的Next-Token Prediction目标。该框架是模型无关、即插即用的,实验表明它能持续提升多种LLM推荐器的性能,实现了行为准确性与语义流畅性的平衡。
〰️
6. TopKGAT: A Top-K Objective-Driven Architecture for Recommendation
🔗 原文: https://arxiv.org/abs/2601.18432v1
🏷️ 来源: 🎓 学术界 | Zhejiang University, Hangzhou City University, CUHK-Shenzhen
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 从Top-K指标梯度推导出推荐模型架构,理论新颖,实验扎实,对模型设计有启发。
📊 评分理由: 学术界主导(浙江大学等)。提出了一种新颖的、从Top-K评价指标梯度推导出的推荐模型架构(TopKGAT),核心贡献是将模型前向传播与Precision@K的梯度上升过程对齐,从而在架构层面直接优化Top-K目标。方法创新性强,理论推导扎实,在四个公开数据集上显著超越SOTA基线,消融实验充分。虽无线上验证,但方法设计巧妙,对推荐模型架构设计有重要启发,具有明确的落地潜力。4分。
📝 摘要: 本文指出现有推荐模型架构的设计并未显式与Top-K评价目标(如Precision@K)对齐,限制了其有效性。为此,作者提出了TopKGAT,一种直接从Precision@K的可微近似中推导出的图神经网络架构。其单层前向计算本质上与Precision@K的梯度上升过程对齐。具体地,节点更新公式包含一个可学习的用户特定阈值和一个独特的钟形(band-pass)激活函数,该函数会对相似度分数在阈值附近的邻居节点赋予最大权重,从而使模型聚焦于对Top-K排序边界影响最大的物品。这种设计让模型架构本身具备了优化Top-K排序的归纳偏置,在多个公开数据集上的实验验证了其显著优于现有SOTA模型。
〰️
7. From Atom to Community: Structured and Evolving Agent Memory for User Behavior Modeling
🔗 原文: https://arxiv.org/abs/2601.16872v2
🏷️ 来源: 🎓 学术界 | Hefei University of Technology
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 为LLM Agent推荐提出结构化、可演化的记忆框架,有效解耦用户兴趣并利用协同信号,方法扎实有启发。
📊 评分理由: 学术界(合肥工业大学)。提出STEAM框架,将LLM Agent的单摘要记忆重构为结构化、可演化的原子记忆单元,并构建跨用户的记忆社区以利用协同信号。方法创新性强,在推荐准确率、用户模拟保真度和多样性上显著超越SOTA基线,消融实验充分。虽无线上验证,但针对LLM Agent在推荐中记忆建模的核心挑战(兴趣解耦、动态演化、稀疏性)提出了系统性解决方案,对Agent-Rec方向有重要启发价值。4分。
📝 摘要: 本文针对LLM Agent在用户行为建模中记忆机制(通常为单一、非结构化的摘要)的不足,提出了STEAM框架。STEAM将用户偏好分解为原子记忆单元,每个单元捕获一个独立的兴趣维度并与具体行为关联。为了利用协同模式,STEAM将跨用户的相似记忆组织成社区,并生成原型记忆进行信号传播。框架还包含了自适应演化机制,如合并(精炼现有记忆)和形成(捕捉新兴兴趣)。实验表明,STEAM在推荐准确性、用户模拟保真度和推荐多样性上均大幅超越现有基线,为构建更强大、可解释的推荐Agent提供了新思路。
〰️
8. GenCI: Generative Modeling of User Interest Shift via Cohort-based Intent Learning for CTR Prediction
🔗 原文: https://arxiv.org/abs/2601.18251v1
🏷️ 来源: 🤝 产学合作 | Renmin University of China, Tencent
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出融合生成式与判别式的新范式,通过语义兴趣队列建模短期意图,提升CTR预测效果。
📊 评分理由: 学术界主导(人大、腾讯挂名),无线上AB验证。核心贡献在于提出了一种融合生成式建模与判别式排序的新范式,通过语义ID构建兴趣队列来捕捉用户短期意图,并设计了层次化的候选感知网络进行意图精炼。方法创新性强,实验扎实,在三个公开数据集上显著超越SOTA,对工业界CTR建模有较强启发价值。虽无线上验证,但方法扎实有启发,上调至4分。
📝 摘要: 本文针对CTR预测中判别式模型过度拟合历史主导特征、难以捕捉快速兴趣转移的问题,提出了GenCI框架。该框架融合了生成式与判别式范式:首先,一个基于Transformer的生成式模块通过Next-Item Prediction任务,生成候选无关的“语义兴趣队列”,作为用户短期意图的显式表示。然后,一个层次化的候选感知网络将这些队列注入排序阶段,该网络通过交叉注意力,先后利用队列表示过滤历史行为噪声,并利用目标物品聚合与自身最相关的短期意图。最终,长/短期意图与原始特征共同用于CTR预估。端到端训练使模型能更好地对齐用户即时意图,在公开数据集上超越了DIN、DIEN等SOTA模型。
〰️
9. Aggregate and Broadcast: Scalable and Efficient Feature Interaction for Recommender Systems
🔗 原文: https://arxiv.org/abs/2508.11565v2
🏷️ 来源: 🏭 工业界 | Kuaishou
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 快手提出的高效特征交互架构,线上收益显著,是精排模型工程优化的优秀实践。
📊 评分理由: 工业界(快手)。论文提出了一种新的轻量级特征交互架构INFNet,通过引入Hub Token和聚合-广播机制,在保持线性复杂度的同时,解决了现有高效模型(如RankMixer)中“早期序列聚合”和“后期任务融合”导致的信息瓶颈问题。方法设计巧妙,在公开和工业数据集上均超越SOTA,并完成了线上A/B测试,取得了显著的CTR和收入提升(+1.155% CTR, +1.587% Revenue)。这是一项扎实且有价值的工业实践,方法创新且收益明确,锚定4分。
📝 摘要: 本文针对精排模型中特征交互在表达能力和计算效率间的矛盾,提出了信息流网络(INFNet)。该架构将特征分为分类特征、行为序列和任务标识三组,并为每组引入少量Hub Token作为通信枢纽。核心交互通过“聚合-广播”流程实现:Hub Token通过跨注意力聚合全局上下文,再通过轻量门控广播单元将精炼后的上下文广播回更新原始Token。这种设计实现了宽度保持的堆叠,避免了早期序列压缩,并让任务信号能全程指导交互,同时将计算复杂度从二次降为线性。在快手线上广告系统的A/B测试中,INFNet带来了收入+1.587%和CTR+1.155%的显著提升。
〰️
10. Unleashing the Potential of Sparse Attention on Long-term Behaviors for CTR Prediction
🔗 原文: https://arxiv.org/abs/2601.17836v1
🏷️ 来源: 🤝 产学合作 | Meituan, Chinese Academy of Sciences
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 美团提出的长序列稀疏注意力模型,线上CTR+1.72%,方法针对推荐场景设计,工程落地价值高。
📊 评分理由: 工业界(美团)。提出面向长序列用户行为的稀疏注意力模型SparseCTR,线上AB测试CTR提升1.72%,CPM提升1.41%。核心贡献是针对推荐场景用户行为个性化、时序性的特点,设计了TimeChunking分块、三支路注意力(全局/转移/局部)和复合相对时间编码。方法创新且实验扎实,展示了明显的Scaling Law现象。虽未颠覆范式,但工程落地价值高,是长序列建模的优秀实践。4分。
📝 摘要: 本文旨在为CTR预测任务高效建模用户长期行为序列(最长2年)。针对标准自注意力二次方复杂度的问题,提出了SparseCTR模型。其核心创新包括:1)个性化时序分块(TimeChunking),根据行为时间间隔将序列分割为变长块;2)三支路稀疏注意力(EvoAttention),分别建模用户的全局长期兴趣、兴趣转移和短期局部兴趣;3)复合相对时间编码,通过可学习的头特定偏置系数捕捉行为的时序和周期关系。该方法在保持效率的同时显著提升了效果,并在美团线上广告场景的A/B测试中取得了CTR+1.72%和CPM+1.41%的收益,同时展示了明显的Scaling Law现象。
Section 3: 🔍 Deep Dive
S$^2$GR: Stepwise Semantic-Guided Reasoning in Latent Space for Generative Recommendation
🔗 原文: https://arxiv.org/abs/2601.18664v1
🏷️ 来源: 🏭 工业界 | Kuaishou
💡 问题与动机
生成式推荐(GR)通过端到端生成语义ID(SID)来推荐物品,但现有方法缺乏类似大语言模型的深度推理能力,限制了性能上限。现有推理增强的GR方法存在两大缺陷:1)推理步骤与生成步骤严格分离,导致对层次化SID代码的计算焦点不均衡,影响生成质量;2)生成的推理向量缺乏可解释语义,推理路径缺乏可验证的监督,导致推理可靠性存疑。
🧠 核心贡献
- 提出了逐步语义引导推理(Stepwise Semantic-Guided Reasoning) 新范式,将思考token(thinking token)与SID的层次化语义对齐。
- 设计了协同与均衡的RQ-VAE(CoBa RQ-VAE),通过融入物品共现图、负载均衡和均匀性目标,优化了SID的语义基础。
- 通过对比学习对思考token进行显式监督,确保推理路径的物理可解释性和可靠性,并在快手短视频平台通过线上AB测试验证了显著业务收益。
🛠️ 核心方法
整体流程:首先使用CoBa RQ-VAE为物品生成层次化语义ID(SID)。然后,在基于Transformer的生成模型中,在自回归预测每一层SID代码之前,插入一个思考token。该思考token的表示通过对比学习,与ground-truth SID代码所属的粗粒度聚类中心对齐,从而引导下一步的SID生成。
- CoBa RQ-VAE:1) 构建物品共现图,通过图传播将协同信号融入物品表示;2) 引入基于距离的均匀性损失防止码本塌缩;3) 借鉴MoE的负载均衡机制,动态调整码字选择概率,提高码本利用率。
- 逐步推理机制:在生成第ℓ层SID代码c_ℓ前,模型生成一个思考token h_ℓ。该token被监督以代表c_ℓ对应的粗粒度语义类别(通过对第ℓ层码本进行聚类得到)。
- 监督信号:通过对比学习损失,拉近思考token h_ℓ与c_ℓ真实所属聚类中心z_{c_ℓ}的距离,同时推远与其他聚类中心的距离,为推理提供可解释的监督。
🔍 关键细节(我关心能不能复现)
- 训练数据:使用工业短视频数据集(超100万物品,370万交互)。SID通过CoBa RQ-VAE在训练前离线生成。
- 损失函数与训练策略:总损失包含SID生成的交叉熵损失、思考token的对比学习损失,以及一个辅助的全局用户兴趣解码损失(用于监督第一个思考token)。模型端到端训练。
- 推理流程与代价:推理时,模型自回归地生成思考token和SID代码序列。思考token的生成不增加额外的解码步骤,因为它被嵌入在生成流程中。线上AB测试表明,在保持服务延迟的前提下获得了收益。
📈 实验效果
- 数据/场景与指标:公开数据集(Amazon-Book)和快手工业数据集。评估指标包括Recall、NDCG、线上业务指标(总使用时长、人均时长、总观看量)。
- 主要结果:在工业数据集上,S²GR的Recall@10/50相比最强基线TIGER提升约5%。线上AB测试(5.25%流量,7天)显示:总使用时长+0.092%,人均使用时长+0.088%,总视频观看量+0.091%。
- 最关键的消融/对比:消融实验证明了逐步推理机制(w/o Stepwise)、对比学习监督(w/o CL)和CoBa RQ-VAE优化(w/o CoBa)各自带来的显著性能下降,验证了每个组件的必要性。
⚠️ 风险与边界
- 码本质量依赖:SID的语义层次清晰度是逐步推理有效的基础,CoBa RQ-VAE的优化至关重要,但其效果受限于原始物品内容特征的质量。
- 计算开销:虽然思考token不增加解码步数,但对比学习监督和更复杂的码本优化会增加训练成本。
- 场景泛化:方法在短视频场景验证,其在物品属性更复杂、交互更稀疏的电商场景下的效果有待验证。
💼 工业启发
- 保守:可以借鉴其CoBa RQ-VAE的思路,优化自身语义ID的构建过程,融入协同信号并改善码本分布。
- 中等:在已有的生成式推荐模型中,尝试引入逐步推理的思想,通过辅助任务(如预测品类)对中间层表示进行监督,可能提升生成质量。
- 激进:直接复现其S²GR完整框架,在召回或排序阶段进行A/B测试,验证该范式在自身业务上的收益。
〰️
DualGR: Generative Retrieval with Long and Short-Term Interests Modeling
🔗 原文: https://arxiv.org/abs/2511.12518v2
🏷️ 来源: 🤝 产学合作 | Kuaishou, University of Science and Technology of China
💡 问题与动机
在短视频双列探索流中部署生成式检索(GR)面临三大挑战:1)长短兴趣干扰:稳定偏好与短期热点在注意力机制中相互稀释,影响解码质量与多样性平衡;2)上下文噪声与长历史约束:生成细粒度SID时,模型难以从长历史中分离相关信号,且全历史交叉注意力计算代价高;3)曝光未点击反馈缺失:传统的Next-Token Prediction损失难以利用未点击曝光作为显式负信号,导致非兴趣方向消退慢,影响解码效率。
🧠 核心贡献
- 提出双分支长短兴趣路由器(DBR),显式分离并建模用户长短期兴趣,推理时并行解码后合并,实现可控的多兴趣覆盖。
- 设计搜索式SID解码(S2D),在预测细粒度ID时,将候选动作约束在当前粗粒度桶内,提升效率、增强一致性并抑制噪声。
- 引入曝光感知NTP损失(ENTP-Loss),将未点击曝光作为粗粒度硬负样本,促进非兴趣方向的及时消退。
🛠️ 核心方法
整体流程:物品被预量化成三层SID。模型采用编码器-解码器架构,编码器极简(嵌入层+LayerNorm),核心在解码器。对于每个用户请求,DBR将其历史分为长/短期子序列,并计算与目标(初始为[BOS])的相似度,选择更相关的分支进行激活。在解码时,两分支并行进行自回归生成,并通过S2D机制在粗粒度ID确定后,将细粒度ID的预测空间限制在该粗粒度桶内。训练时,除了标准NTP损失,还增加了ENTP-Loss。
- 双分支路由器(DBR):根据时间窗口划分长(如过去30天)、短(如过去1天)期历史,分别池化为摘要向量。计算目标向量与两个摘要的相似度,选取相似度更高的分支进行本次前向传播的激活。训练时只激活一支,推理时两支并行。
- 搜索式解码(S2D):当解码到第ℓ层(ℓ>1)时,已知前ℓ-1层代码确定了某个粗粒度桶。模型不是从整个第ℓ层码本中预测,而是仅从属于该桶的码字集合中预测,大幅缩小搜索空间。同时,可以将历史中同属该桶的行为作为增强的上下文。
- 曝光感知损失(ENTP-Loss):在训练预测第一层(最粗粒度)SID时,对于曝光未点击的样本,将其对应的第一层SID作为硬负样本,在损失中给予负向权重,加速模型“忘记”用户不感兴趣的粗粒度类别。
🔍 关键细节(我关心能不能复现)
- 训练数据:使用快手双列探索流日志,包含用户交互序列和曝光未点击数据。物品SID通过RQ-KMeans离线生成。
- 损失函数与训练策略:损失函数为标准NTP损失 + ENTP-Loss。DBR在训练时通过相似度路由,只对单个分支计算损失,以避免梯度冲突。
- 推理流程与代价:推理时,长短期分支各执行一次完整的前向传播(含beam search),生成两组候选SID序列,合并去重后映射回物品ID。报告显示其作为额外召回通道,未显著增加端到端延迟。
📈 实验效果
- 数据/场景与指标:快手工业数据集,评估离线指标(HR@K, NDCG@K)和线上业务指标(视频播放量、观看时长)。
- 主要结果:离线HR@1000从基线TIGER的14.442%提升至19.529%。线上AB测试(6%流量,7天)显示:视频播放量+0.527%,观看时长+0.432%。
- 最关键的消融/对比:消融实验证明了DBR、S2D、ENTP-Loss三个组件缺一不可。特别是,移除DBR(退化为单分支)或S2D(退化为全局解码)会导致性能显著下降。
⚠️ 风险与边界
- 双分支复杂度:相比单分支模型,训练和推理计算量近似翻倍,但对延迟的影响在文中显示可控。
- 路由可靠性:DBR的相似度路由机制在兴趣混杂或历史稀疏时可能做出次优选择。
- 场景适配:方法针对双列瀑布流设计,在单列全屏流或搜索场景中,其多样性优势和S2D机制的价值可能需要重新评估。
💼 工业启发
- 保守:借鉴ENTP-Loss的思想,在生成式模型的训练中,尝试引入曝光未点击数据作为负样本,尤其是在粗粒度预测层。
- 中等:在已有生成式检索系统中,引入S2D解码策略,可以立即提升解码效率并可能改善相关性,改造成本相对较低。
- 激进:在需要强多样性保障的召回场景(如探索流、商城首页),部署DualGR完整框架,替代或增强现有的EBR通道,进行效果和效率的全面评估。