type
status
date
slug
summary
tags
category
icon
password
priority
本周概览
2026 年第 10 周(3 月 2-8 日),推荐系统研究的核心技术故事可以用一个词概括:工程化。不是简单的算法到系统的翻译,而是从架构设计、训练范式到评估方法的系统性工程思维正在全面渗透推荐系统的每一个环节。本周收录的 36 篇论文中,工业论文超过四成(15/36),阿里、腾讯、快手、字节、Bilibili、京东、小红书等团队贡献了大量带有线上验证的系统级工作。
三条技术主线贯穿本周。第一,排序链路的 scaling 工程化——SORT(阿里,订单 +6.35%)、FlashEvaluator(快手,持续收入增长)、SOLAR(快手,Video Views +0.68%)分别从精排架构、评估器模型、注意力机制三个维度推进工业级 Transformer 的落地,HAP(字节,今日头条部署 9 个月)则从粗排阶段揭示了计算预算分配应是自适应的而非均匀的。第二,生成式推荐从概念验证走向目标对齐——OneRanker(腾讯微信视频号广告,GMV - Normal +1.34%)实现了生成与排序的架构级深度融合,CGR(Bilibili)将约束优化嵌入解码过程,GRPO 作为对齐工具在查询重写(京东)和多模态推理(MLLMRec-R1)中被越来越精细地使用。第三,多模态与去偏的粒度持续细化——CLEAR 识别并通过零空间投影消除跨模态冗余,CAMMSR 证明模态权重需随品类动态调整,TIPS 将因果去偏从静态扩展到时间感知,k-hop fairness 将公平性评估从一阶邻域推广到多跳结构。
排序模型架构与系统效率优化
自 HSTU 和 Wukong 确立推荐排序的 scaling 路线以来,工业界面临的核心问题是如何在高特征稀疏、低标签密度和严苛延迟约束下落地 Transformer 架构。本周五篇论文从精排、粗排、重排三个阶段同时推进这一方向。
SORT: A Systematically Optimized Ranking Transformer (2603.03988)
阿里巴巴这篇论文直面 Transformer 在工业排序中的两大核心障碍:高特征稀疏和低标签密度。SORT 的解决思路是系统性的而非单点突破——request-centric sample organization 将同一请求下的候选组织为训练序列,为局部注意力提供了自然的上下文边界;query pruning 在推理时剪除低价值 token,直接压缩计算量;生成式预训练则通过自监督信号缓解标签稀疏问题。在工程层面,SORT 将模型 FLOPs 利用率(MFU)推到 22%——据公开报告,LLM 训练通常追求 40-60% 的 MFU,而推荐模型因 embedding 查表和稀疏特征的存在天然 MFU 更低,因此 22% 在推荐模型中已属较高水平。
线上结果:订单 +6.35%、买家 +5.97%、GMV +5.47%,同时延迟降低 44.67%、吞吐翻倍(+121.33%)。与它所扩展的 DIN、DeepFM、DCN 基线相比,SORT 的优势不仅在绝对指标上,更在于展现了跨数据规模、模型规模和序列长度的 scaling 行为——这正是此前 Wukong 和 HSTU 开辟的路线在电商精排场景的具体验证。
FlashEvaluator: Expanding Search Space with Parallel Evaluation (2603.02565)
快手提出的 FlashEvaluator 瞄准的是 Generator-Evaluator(G-E)框架中评估器的效率瓶颈。传统做法对 K 个候选序列逐一评分,复杂度 O(K) 且无法跨序列比较。FlashEvaluator 的核心创新是跨序列 token 信息共享——所有 K 个序列在单次前向传播中完成评估,实现子线性复杂度。这不仅是工程加速:跨序列的显式比较机制让评估器能看到"全貌",从而做出更准确的排序决策。
这个思路与 SORT-Gen(淘宝百亿补贴的生成式重排模型,CLICK +4.13%、GMV +8.10%)形成有趣的互补——SORT-Gen 优化的是生成端,FlashEvaluator 优化的是评估端。FlashEvaluator 已在快手线上部署并带来持续收入增长(论文未公布具体线上提升百分比),论文同时提供了理论证明和 NLP 任务上的泛化实验,说明这一架构思想并不局限于推荐场景。
HAP: Heterogeneity-Aware Adaptive Pre-ranking (2603.03770)
字节跳动这篇论文揭示了粗排阶段一个被长期忽视的问题:训练样本的异质性。粗排的训练数据混合了粗粒度召回结果、细粒度精排信号和曝光反馈,这三类样本的难度差异巨大。HAP 的分析表明,简单地混合训练会导致梯度冲突——困难样本主导梯度方向,简单样本被浪费;而统一增大模型复杂度在简单样本上性价比极低。
HAP 的解法是将简单和困难样本解耦到不同的优化路径:轻量模型处理全部候选(高效覆盖),强模型仅处理困难候选(精准提升)。这种自适应计算预算分配的思路,与 GRACE(通过多个二分类任务实现排序一致性,离线 AUC +0.75%,线上 CVR +1.28%)和 IntTower(通过 Light-SE 和对比正则化实现高效粗排)的工作一脉相承,但 HAP 更进一步——它不仅区分样本难度,还通过 conflict-sensitive sampling 主动缓解梯度冲突。在今日头条部署 9 个月,用户使用时长 +0.4%、活跃天数 +0.05%,且无额外计算成本。论文还开源了工业级混合样本数据集,这对粗排研究社区是有价值的资源。
SOLAR: SVD-Optimized Lifelong Attention for Recommendation (2603.02561)
同样来自快手的 SOLAR 从数学层面切入注意力机制的效率问题。核心观察是:推荐系统中的注意力矩阵天然具有低秩结构——这不是偶然,而是表示学习的默认归纳偏置。基于此,SVD-Attention 在低秩矩阵上实现理论无损的复杂度降低:从 O(N²d) 到 O(Ndr),且保留 softmax 机制。这与线性注意力(O(Nd²),但丢弃 softmax)形成鲜明对比——SOLAR 不牺牲表达能力,而是利用数据本身的结构特性。
SOLAR 支持万级用户行为序列和数千候选集的直接建模,无需任何过滤或截断。这与快手此前的 TWIN V2(通过分层聚类将序列扩展到百万级)方向一致,但 SOLAR 的优势在于端到端的注意力计算,而非检索式的近似。线上 Video Views +0.68% 加上业务指标提升,验证了低秩假设在实际部署中的有效性。值得注意的是,SOLAR 和 FlashEvaluator 均出自快手,分别从注意力机制和评估器模型两个维度优化 Transformer 效率,展现了快手在排序系统工程上的系统性投入。
Scaling Laws for Reranking in Information Retrieval (2603.04816)
这篇学术论文填补了一个重要的理论空白:重排阶段的 scaling law。此前 Wukong 验证了推荐模型的 scaling law,SparseCTR 在 CTR 预测中展示了跨三个数量级 FLOPs 的 scaling 现象,但重排阶段一直缺乏系统研究。该论文覆盖 pointwise、pairwise、listwise 三种重排范式,发现 NDCG 和 MAP 遵循可预测的幂律——通过训练和评估一系列小模型(最大到 400M 参数)即可准确预测 1B 模型的性能,无论域内还是域外设置。
但论文也指出了 scaling 的边界:MRR 和 Contrastive Entropy 在某些场景下不遵循幂律。这意味着并非所有指标都能被 scaling 解释,选择什么指标来指导模型 scaling 决策本身就是一个工程判断。虽然缺乏线上验证,但这项工作为工业系统的资源规划提供了理论工具——在动辄数百万美元训练成本的当下,能用小模型预测大模型表现的价值不言而喻。
五篇论文勾勒出一条清晰路线:工业推荐排序正从"单点架构创新"转向"系统性 scaling 工程"。SORT 和 SOLAR 分别证明了精排 Transformer 在数据/模型/序列三个维度上的 scaling 行为;FlashEvaluator 将效率优化从模型内部推向跨序列的系统架构层面;Scaling Laws for Reranking 试图为重排阶段建立可预测的性能-资源映射;HAP 则从资源分配层面提供互补——计算预算应根据样本难度自适应调整,而非均匀分配。接下来的方向可能是全链路统一的 scaling 预测、低秩结构与稀疏注意力的深度融合,以及计算预算动态分配从粗排扩展到全链路。
生成式推荐与全链路统一建模
从 HSTU 确立生成式推荐范式、到 OneMall/UniSearch 在多场景验证统一架构、再到 Rank-GRPO/SCoTER 引入 RL 对齐——生成式推荐正在从"概念验证"走向"目标对齐"。本周四篇论文分别从生成-排序融合、约束感知解码、训练-推理一致性和集合值检索四个方向推进。
OneRanker: Unified Generation and Ranking with One Model (2603.02999)
生成式广告推荐的核心矛盾在于:兴趣覆盖和商业价值优化是两个天然冲突的目标,单阶段融合导致优化张力,阶段解耦则造成不可逆的信息损失。OneRanker 提出了三层机制来实现生成与排序的架构级深度融合。第一,价值感知多任务解耦架构——利用 task token 序列和因果掩码,在共享表示中分离兴趣覆盖和价值优化空间,避免了传统多任务学习中的目标冲突。第二,粗到细协同目标感知机制——生成阶段通过 Fake Item Tokens 实现隐式感知,排序解码器在候选级别进行显式价值对齐。第三,输入输出双侧一致性保证——通过 Key/Value 直通机制和 Distribution Consistency (DC) Constraint Loss 实现端到端协同优化。
在微信视频号广告系统全面部署后,OneRanker 带来 GMV - Normal +1.34% 的提升。对比 HSTU 侧重于序列转导的统一建模,OneRanker 更聚焦于生成-排序的目标对齐问题。相比快手的 HoME 通过层次掩码和 Feature-gate/Self-gate 机制解决 MoE 中的 Expert Collapse、Expert Degradation 和 Expert Underfitting 问题(在线播放时长 +0.954%),OneRanker 的创新在于将多任务解耦从专家路由层面提升到了序列生成层面,用因果掩码实现了更自然的任务空间分离。
CGR: Constraint-Aware Generative Re-ranking (2603.04227)
广告信息流重排是一个受约束的组合优化问题,需要同时最大化平台收入和保持用户体验。现有生成式排序方法通过自回归解码实现列表级优化,但受困于高推理延迟和有限的约束处理能力。CGR 的关键创新有二:将生成器和评估器统一到单一网络(而非 Generator-Evaluator 两阶段),以及将约束满足直接集成到解码过程中的约束感知奖励剪枝。Bilibili 的在线 A/B 测试显示收入和用户参与度双双提升(具体提升幅度未披露),同时满足严格的延迟要求。对比 CAVE 将列表价值建模为子列表价值期望的重排思路,CGR 走的是将约束优化转化为有界神经解码的路线,更直接地将业务约束嵌入生成过程。
APAO: Adaptive Prefix-Aware Optimization (2603.02730)
生成式推荐存在一个基本的训练-推理不一致:训练时假设 ground-truth 历史始终可用,但推理时 beam search 会裁剪低概率分支。结果是正确物品可能仅仅因为初始 token(前缀)得分低就被过早丢弃。APAO 引入前缀级优化损失来对齐训练目标与推理设定,并设计自适应最差前缀优化策略,动态聚焦训练中最脆弱的前缀。在 Beauty、Sports、Toys 三个数据集上,APAO 平均提升 Recall@20 指标 2.1-4.8%,且可作为通用插件应用于多种生成式推荐骨干。这个方向与 RelayGR 解决长序列推理效率的思路互补——APAO 提升了单次 beam search 的质量,RelayGR 解决了长序列下的系统瓶颈。
Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion (R4T, 2603.06397)
集合值检索(set-valued retrieval)是一类较少被系统研究的问题:给定一个宽泛意图,系统需要返回一组优化高阶属性(多样性、覆盖度、互补性)的结果集。R4T 的核心洞察是将 RL 用作"目标转换器"而非推理引擎:第一步,用复合集合级奖励训练 fan-out LLM;第二步,利用该 LLM 合成目标一致的训练对;第三步,训练轻量扩散检索器建模集合值输出的条件分布。这个三步流程将 fan-out 延迟降低了一个数量级,同时在时尚和音乐基准上提升了检索质量。这种"训练时用重模型,推理时用轻模型"的范式适合工业部署的延迟约束。
四篇论文呈现出三条收敛路径。全链路统一方面,OneRanker 和 CGR 分别在广告和信息流场景推进了生成-排序的深度融合,关键技术是因果掩码下的任务空间分离和约束感知解码。RL 的角色方面,R4T 用 RL 生成训练数据而非直接做推理——业界正在学会更精细地使用 RL。训练-推理一致性方面,APAO 解决 beam search 的前缀偏差,这类看似微小的不一致在生产系统中会被放大。接下来可能会看到这三条路径在统一骨干中融合。
LLM 推理增强推荐
LLM 与推荐的结合已从 NoteLLM 式的静态编码走向推理注入,Meta 的 Foundation-Expert Paradigm 和快手的 Next Interest Flow 验证了 LLM 推理链路和世界知识可以直接服务推荐决策。本周五篇论文的共同主题是如何高效地将推理能力嵌入在线链路,同时控制延迟和部署成本。
MLLMRec-R1: Incentivizing Reasoning Capability in MLLMs for Multimodal Sequential Recommendation (2603.06243)
将 GRPO 推理流程扩展到多模态序列推荐面临两个根本性障碍:视觉 token 随历史长度和候选集规模爆炸式增长,使 group-based rollout 成本不可承受;现有 CoT 监督存在奖励膨胀——训练奖励提高并不可靠地转化为排序性能提升。MLLMRec-R1 的解法直截了当:将视觉信号离线文本化以消除视觉 token,通过精炼和置信度感知评估构建高质量多模态 CoT 监督,再用混合粒度数据增强策略选择性注入可靠 CoT 样本。在三个基准数据集上超越了 LLaVA、BLIP-2、UniSRec、SASRec 等多个 SOTA 方法。与 Rank-GRPO 重新定义排名级奖励的思路互补,MLLMRec-R1 更关注奖励信号本身的质量控制。
Relevance Matters: Multi-Task LLM Query Rewriting (2603.02555)
京东与清华联合提出的查询重写框架,最大亮点是将相关性任务注入生成过程。具体路径:先在京东用户-商品数据上预训练,再进行多任务 SFT(查询生成 + 相关性标注),最后用 GRPO 对齐相关性和转化目标。自 2025 年 8 月在京东部署以来,UCVR 获得提升(论文未公开具体百分比)。关键启示是:查询重写不应只追求语义等价,还需显式建模下游相关性。
IDProxy: Cold-Start CTR Prediction with Multimodal LLMs (2603.01590)
小红书团队提出的 IDProxy 利用多模态 LLM 从文本和图像内容生成代理嵌入,通过对齐损失与现有 ID 嵌入空间融合,端到端优化 CTR 目标。这个思路绕过了传统冷启动方法的局限——不需要等待行为数据积累,而是用内容信号直接"代理"行为信号。线上 A/B 测试在 CTR 和 CVR 上分别提升 +2.1% 和 +2.5%,已部署于小红书探索 Feed 的内容推荐和展示广告,每日服务数亿用户。
LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval (2603.01425)
稠密检索领域面临一个结构性矛盾:LLM 具备强大的 Chain-of-Thought 推理能力,但现有检索器只把它当静态编码器用。rewrite-then-retrieve 管线虽然能利用 CoT,但自回归生成带来的延迟不可接受。阿里巴巴和人大团队提出的 LaSER 用自蒸馏框架破解这个矛盾:在共享 LLM 骨干上构建双视图——Explicit 视图编码真实推理路径,Latent 视图执行隐式潜在思考。关键创新在于轨迹对齐机制(trajectory alignment),将隐式路径的中间隐状态与显式推理片段的语义进展同步。这意味着检索器可以"沉默地思考",无需生成文本就能完成推理。
实验覆盖了 DPR、ANCE、Contriever、E5、BGE、GritLM 等十余个基线,在域内和域外推理密集型基准上均超越 SOTA(具体指标见原文)。与同期的 ReFeed(仍走 rewrite-then-retrieve 路线,在 NQ 和 HotpotQA 上提升召回率约 5-10%)相比,LaSER 彻底消除了显式推理的推理时延迟,是一条更适合工业部署的路径。
SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems (2603.03536)
这篇来自 UIC、UIUC 和 Amazon 的工作切入了一个被严重忽视的角落:LLM 对话式推荐的个性化安全。核心问题是——用户在对话中隐含透露的安全敏感信息(创伤触发器、自伤历史、恐惧症等)可能被推荐结果违反。Safe-SFT 建立安全意识的基础能力,Safe-GDPO 在强化学习阶段联合优化推荐质量和安全对齐。实验显示相比最强基线(包括 ChatGPT、GPT-4),安全违规率降低高达 96.5%,同时推荐质量保持竞争力。
五篇论文指向同一个方向:LLM 的推理能力正在从"外挂式"走向"内化式"。LaSER 把显式 CoT 蒸馏进隐空间以消除推理延迟,SafeCRS 把安全推理内化到策略优化中以实现实时约束。工业侧,LaSER 的自蒸馏范式很可能被快速跟进,因为推理时不需要额外模块,部署开销与标准稠密检索器一致。
多模态推荐与跨模态表示学习
多模态推荐正在从"如何融合更多模态"转向"如何精细管理模态贡献"——从 MMGCN、LATTICE 的启发式融合到 SSR 的频率自适应融合,再到 DiffRec 将扩散模型引入推荐。本周五篇论文分别从冗余消除、类别自适应、分层去噪、嵌入质量和跨模态对齐五个角度推进。
Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval (2603.04836)
来自 Target 的工业论文,直面电商检索系统"重文本、轻视觉"的问题。核心创新是两阶段对齐策略:先对齐 query 与商品文本,再对齐 query 与商品图像,配合模态融合网络捕捉跨模态互补信息。这种分阶段对齐的设计比直接端到端训练更稳定——先建立文本语义锚点,再在此基础上融入视觉信号。不过论文未报告线上 A/B 实验数据,作为工业论文这是一个明显的缺憾。
CAMMSR: Category-Guided Attentive Mixture of Experts for Multimodal Sequential Recommendation (2603.04320)
CAMMSR 瞄准一个被忽视但重要的问题:同一用户对不同类别商品的模态偏好是动态变化的。买衣服时更看重图片,买电子产品时更依赖文本描述。CAMMSR 的解法是类别引导的注意力 MoE 模块(CAMoE):通过辅助类别预测任务为门控网络提供监督信号,让不同专家学习不同模态视角的物品表示,实现自适应权重分配。另一个亮点是模态交换对比学习——在序列级别交换模态信息做数据增强,强化跨模态对齐。在四个公开数据集上超越 SASRec、BERT4Rec、MMRec 等基线。与 M3oE 的三种 MoE 模块解耦相比,CAMMSR 的 MoE 更聚焦于模态维度的自适应,粒度更细。
CLEAR: Null-Space Projection for Cross-Modal De-Redundancy (2603.01536)
CLEAR 提出了一个反直觉的观察:现有方法过度追求跨模态一致性,反而导致跨模态冗余——不同模态的表示高度重叠,互补信息被淹没。这解释了为什么加入更多模态有时反而不涨点。技术方案简洁有力:通过 SVD 分解视觉和文本表示的跨模态协方差矩阵,识别出主导共享方向,然后将多模态特征投影到互补零空间,抑制冗余成分,保留模态特有信息。作为即插即用模块,CLEAR 可以无缝集成到 MMGCN、LATTICE、BM3、DualGNN 等现有模型中,在三个公开数据集上带来 1-3% 的一致提升。
MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation (2603.01926)
微视频推荐面临双重噪声:多模态内容本身的噪声和隐式反馈的不可靠性。MealRec 用分层扩散模型从两个粒度同时应对。Temporal-guided Content Diffusion(TCD)在视频内部粒度,利用时序引导和个性化协同信号细化视频表示。Noise-unconditional Preference Denoising(NPD)在视频间粒度,通过盲去噪从损坏状态恢复用户偏好。在四个微视频数据集上 Recall@20 提升 3.2%-8.7%。与 DiffRec 直接在交互矩阵上做扩散不同,MealRec 将扩散过程分层嵌入内容表示和偏好建模两个层次。
Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality (CoCoA, 2603.01471)
百度和中科院合作的 CoCoA 解决的是 MLLM 做嵌入时的架构偏差问题。因果注意力和 next-token prediction 范式天然不鼓励形成全局紧凑表示。CoCoA 重构注意力流,引入基于 EOS token 的内容重构任务,迫使模型将输入语义压缩到 EOS 嵌入中。在 MMEB-V1 基准上基于 Qwen2-VL 和 Qwen2.5-VL 提升了嵌入质量(论文未报告具体提升幅度)。与 NoteLLM 将笔记压缩为单个 token 的方向一致,但 CoCoA 从预训练范式层面解决问题。
CLEAR 揭示跨模态冗余问题,CAMMSR 证明模态权重需随类别动态调整,MealRec 在内容和偏好两个层次分层去噪——这些工作共同推动了从"盲目叠加模态"到"可解释量化模态贡献"的认知转变。扩散模型在多模态推荐中的深化,与因果推断方法的结合可能成为下一个突破口。
推荐公平性与因果去偏
去偏和公平性研究的粒度在持续细化。从 ESMM 的全空间建模绕开选择偏差、到 Multi-IPW/Multi-DR 将逆倾向加权引入多任务预估,这些方法本质上是静态的。本周五篇论文从时间感知 IPS、样本级模型合并路由、k-hop 公平性、扩散模型状态净化到主动偏好引导,覆盖了从特征去偏到系统级公平的完整谱系。
TIPS: Time-aware Inverse Propensity Scoring (2603.04986)
序列推荐中存在两种交织的偏差:选择偏差(曝光但未点击的物品被误认为不感兴趣)和曝光偏差(未曝光的物品被视为不相关)。传统 IPS 方法是静态的,无法捕捉用户行为的时序动态。TIPS 将 IPS 扩展为时间感知版本,作为即插即用模块,在 SASRec、GRU4Rec、Caser、BERT4Rec 上均带来一致提升,平均 NDCG@10 提升达 5.2%(据论文实验结果)。技术上是增量改进,但填补了一个实际空白。
BD-Merging: Bias-Aware Dynamic Model Merging (2603.03920)
模型合并在多任务推荐中越来越流行,但分布偏移下的可靠性一直是盲区。BD-Merging 的核心技术链路:联合证据头在统一标签空间上学习不确定性 → 邻接差异评分(ADS)量化相邻样本间的证据对齐 → ADS 指导的对比学习训练去偏路由器,在样本级别自适应分配权重。与 Gradient Surgery 等在梯度层面处理任务冲突的方法不同,BD-Merging 在样本级别实现自适应路由,粒度更细。
k-hop Fairness: Addressing Disparities Beyond First-Order Neighborhoods (2603.03867)
将链接预测的公平性概念从一阶邻域扩展到 k-hop 邻域。实验发现三个关键结论:模型在不同 k-hop 上均倾向于复制结构偏差;对图进行重连(rewiring)时不同 hop 的结构偏差存在相互依赖;后处理方法在 k-hop 性能-公平性权衡上优于现有基线。虽然只在学术数据集上验证,但这一概念框架对社交推荐系统的公平性审计有实际意义。
DSRM-HRL: Fairness Begins with State (2603.03820)
该框架重新定义了公平性感知推荐的问题根源:不是奖励塑造的问题,而是状态估计的失败。隐式反馈被流行度噪声和曝光偏差污染,创造了误导 RL agent 的扭曲状态。DSRM 基于扩散模型恢复低熵的潜在偏好流形,HRL 的高层策略调节长期公平性轨迹,低层策略在动态约束下优化短期参与度。在 KuaiRec、KuaiRand 模拟器上,在推荐效用和曝光公平性两个维度上均优于基线,实现了更优的帕累托前沿(具体数字见原文)。
HRL4PFG: Proactive Guiding Strategy for Item-side Fairness (2603.03094)
现有公平性方法通过直接将长尾物品塞入推荐结果来促进曝光,但这造成用户偏好与推荐内容的错位,损害长期参与度。HRL4PFG 的思路是"主动引导"而非"被动注入"——通过分层 RL 的宏观过程生成公平引导目标,微观过程实时调优推荐。在模拟实验中相比基线方法提升了累积交互奖励和最大用户交互长度(具体数字见原文)。
从静态 IPS 到时间感知 IPS、从 dyadic fairness 到 k-hop fairness、从全局模型合并到样本级自适应路由,每一步都在追求更精细的偏差建模。同时,去偏正从"后处理修补"走向"架构级内嵌"——DSRM-HRL 通过扩散模型从源头净化状态表示,HRL4PFG 主动引导偏好而非被动注入。工业落地仍是核心瓶颈:本周多数工作停留在学术验证阶段,如何在十亿级系统中实现细粒度去偏而不引入过多计算开销,是从论文到生产的关键一跳。
值得关注的方向
推荐系统的 Scaling 工程化
本周从多个角度验证了推荐系统 scaling 的可预测性和可工程化。SORT 展示了精排 Transformer 跨数据/模型/序列长度的 scaling 行为,Scaling Laws for Reranking 首次为重排阶段建立幂律预测——这两篇论文共同推进了推荐系统 scaling 理论的建设,与 LLM 的 scaling law 平行但不同:推荐系统的 scaling 需要在严苛的延迟和成本约束下寻找最优前沿。HAP 则从工程实践层面提供互补视角:粗排阶段的计算预算分配应根据样本难度自适应调整,而非均匀分配——这不是 scaling law 层面的理论贡献,而是在资源分配策略上的工程优化。阿里、字节等工业团队和 UMass Amherst 等学术机构在持续推进这一方向,预计下一步会看到全链路统一的 scaling 预测工具,帮助工程团队在训练前就做出资源配置决策。
LLM 推理能力的"内化"范式
LaSER 的自蒸馏框架代表了一个重要趋势:将 LLM 的显式推理能力压缩进可在线服务的隐式表示。这不是简单的知识蒸馏——轨迹对齐机制让隐式路径的中间隐状态与显式推理的语义进展同步,本质上是在教模型"沉默地思考"。MLLMRec-R1 从另一个角度验证了同样的思路:将视觉信号文本化、将 CoT 推理质量控制做到极致,然后通过 GRPO 将推理能力内化。这个方向直接回应了 LLM 推荐的核心矛盾——推理深度与推理延迟的冲突,LaSER 的零额外推理开销和 MLLMRec-R1 消除视觉 token 的策略均指向同一个解法:在训练阶段付出成本,在推理阶段收获效率。
多模态表示的精细化管理
CLEAR 揭示的跨模态冗余问题,可能改变多模态推荐的基本思路。从 MMGCN、LATTICE、BM3 等一系列工作来看(编者分析),近年多模态推荐的主旋律是"加更多模态、做更强对齐"。但 CLEAR 的实验表明,不同模态的表示高度重叠时,加入更多模态反而可能不涨点。CAMMSR 进一步证明了模态权重需要随品类动态调整——这意味着我们需要从"一刀切的融合"转向"选择性的利用"。另一个值得关注的独立趋势是语言表示替代 ID 的路线:AlphaFree 提出的 user-free/ID-free/GNN-free 方案(相比非语言表示方法最高提升约 40%,GPU 内存最多减少 69%)表明,推荐系统的基础表示范式也在发生变化。
本周论文速览
排序模型架构与系统效率优化
SORT: A Systematically Optimized Ranking Transformer — 通过请求中心样本组织、局部注意力、查询剪枝、生成式预训练等系统性优化工业排序 Transformer;阿里电商线上订单 +6.35%、延迟 -44.67%。
FlashEvaluator: Expanding Search Space with Parallel Evaluation — 跨序列 token 信息共享实现子线性评估复杂度;快手线上部署带来持续收入增长。
Not All Candidates are Created Equal: HAP — 通过冲突敏感采样和计算预算自适应分配解决粗排样本异质性;今日头条部署 9 个月,使用时长 +0.4%。
SOLAR: SVD-Optimized Lifelong Attention for Recommendation — SVD-Attention 在低秩矩阵上无损降低注意力复杂度至 O(Ndr);快手线上 Video Views +0.68%。
Scaling Laws for Reranking in Information Retrieval — 首次系统研究重排阶段缩放定律;通过训练一系列小模型(最大到 400M 参数)可准确预测 1B 模型的 NDCG 性能。
生成式推荐与全链路统一建模
OneRanker: Unified Generation and Ranking with One Model — 价值感知多任务解耦和 Fake Item Tokens 实现生成排序深度集成;腾讯微信视频号广告 GMV - Normal +1.34%。
Constraint-Aware Generative Re-ranking (CGR) — 将约束优化转化为有界神经解码,统一序列生成与奖励估计;Bilibili 线上提升收入和参与度(具体幅度未公开)。
APAO: Adaptive Prefix-Aware Optimization — 前缀级优化损失解决生成式推荐训练-推理不一致问题;Recall@20 提升 2.1-4.8%。
Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion (R4T) — 三步流程(RL 训练→合成数据→轻量扩散检索器)将 fan-out 延迟降低一个数量级。
LLM 推理增强推荐
MLLMRec-R1: Incentivizing Reasoning Capability in MLLMs — 视觉信号文本化消除昂贵视觉 token,建立实用的 GRPO 多模态推理流程;三个基准超越 SOTA。
Relevance Matters: Multi-Task LLM Query Rewriting — 将相关性任务注入 LLM 查询重写并用 GRPO 对齐目标;JD.com 部署提升 UCVR。
IDProxy: Cold-Start CTR Prediction with Multimodal LLMs — 多模态 LLM 生成代理嵌入对齐 ID 空间;小红书线上 CTR +2.1%、CVR +2.5%。
LaSER: Internalizing Reasoning into Latent Space for Dense Retrieval — 双视图自蒸馏将显式 CoT 推理内化到检索器隐空间;兼顾推理深度与效率。
SafeCRS: Personalized Safety Alignment for LLM-Based CRS — Safe-SFT + Safe-GDPO 实现对话推荐安全对齐;安全违规率降低 96.5%。
多模态推荐与跨模态表示学习
Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval — 两阶段对齐和模态融合网络实现电商统一文本-图像检索。
CAMMSR: Category-Guided Attentive MoE for Multimodal Sequential Recommendation — 类别引导的注意力 MoE 动态分配模态权重;模态交换对比学习增强跨模态对齐。
MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation — 时序引导内容扩散 + 无条件偏好去噪;Recall@20 提升 3.2%-8.7%。
CLEAR: Null-Space Projection for Cross-Modal De-Redundancy — SVD 识别跨模态冗余子空间,零空间投影保留互补信息;即插即用提升 1-3%。
Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality (CoCoA) — 协作注意力 + EOS 重构任务优化 MLLM 嵌入质量。
推荐公平性与因果去偏
TIPS: Time-aware Inverse Propensity Scoring — 将静态 IPS 扩展为时间感知版本;作为插件平均提升 NDCG@10 达 5.2%。
BD-Merging: Bias-Aware Dynamic Model Merging — 联合证据头 + 邻接差异评分训练去偏路由器;提升模型合并在分布偏移下的鲁棒性。
k-hop Fairness: Addressing Disparities in Graph Link Prediction — 将公平性评估从一阶邻域扩展到 k-hop;后处理方法实现更优性能-公平性权衡。
DSRM-HRL: Fairness Begins with State — 扩散模型净化用户状态 + 分层 RL 解耦效用与公平性;KuaiRec 上实现更优帕累托前沿。
HRL4PFG: Proactive Guiding Strategy for Item-side Fairness — 分层 RL 主动引导用户偏好向长尾物品转移;提升累积交互奖励。
其他
MAC: Multi-Attribution CVR Benchmark — 首个公开多归因 CVR 基准数据集和 PyMAL 开源库;MoAE 模型超越 SOTA。
Scaling RAG with RAG Fusion — 生产环境评估发现 RAG 融合的召回提升被重排抵消;Hit@10 从 0.51 降至 0.48。
DenoiseBid: Uncertainty Quantification for Autobidding — 贝叶斯方法校正 CTR/CVR 噪声估计;提升自动出价效率。
Design Experiments to Compare MAB Algorithms — Artificial Replay 实验设计将 MAB 算法比较成本降低近半。
Dual-Calibration and LLM-Generated Nudges for News — 主题-地域双重校准 + LLM 展示干预;120 人 5 周实验提升新闻多样性。
DisenReason: Behavior Disentanglement for Shared-Account Recommendation — 频域行为解耦 + 潜在用户推理;MRR@5 提升 12.56%。
AgentSelect: Benchmark for Agent Recommendation — 首个 LLM Agent 推荐基准;11 万查询、10 万 Agent、25 万交互记录。
Reproducing Distillation for Cross-Encoders — 系统比较蒸馏策略发现 pairwise MarginMSE 和 listwise InfoNCE 一致最优。
S2CDR: Smoothing-Sharpening for Cross-Domain Recommendation — 热方程平滑 + 锐化恢复实现无训练跨域推荐;NDCG@20 平均提升 12.7%。
AlphaFree: Recommendation Free from Users, IDs, and GNNs — 用语言表示替代 ID、对比学习替代 GNN;相比非语言表示方法最高提升约 40%,内存最多减少 69%。
NextAds: Next-generation Personalized Video Advertising — 提出生成式视频广告个性化范式;定义创意生成与集成两个核心任务。
ReFeed: Retrieval Feedback-Guided Query Rewriting — 检索反馈驱动数据集构建;风格感知查询重写提升召回率 5-10%。