推荐算法日报 - 2026-02-05

type

status

date

slug

summary

Section 1: 📊 Trend Analysis

基于今日论文，我们观察到以下技术趋势：

🔥 生成式推荐迈向工业化落地与基础模型构建：今日多篇高评分论文均围绕生成式推荐展开。快手OneRec开源了首个推荐基础模型全栈框架，验证了推荐领域的Scaling Law；阿里高德SCASRec将生成式推荐成功应用于路线列表推荐，线上收益显著；美团DOS则聚焦于语义ID生成这一关键组件，带来了线上收入提升。这表明生成式推荐已从学术探索进入大规模工业实践阶段，核心挑战从“能否生成”转向“如何高效、高质量、可扩展地生成”。

💡 端到端统一范式挑战传统多阶段Pipeline：传统推荐系统（召回->精排->重排）的割裂优化问题日益凸显。SCASRec直接将精排、重排和冗余消除统一为一个端到端生成过程；OpenOneRec更是将整个推荐流水线统一为生成任务。这种范式旨在解决离线-在线指标对齐、模块间次优解以及手工规则僵化等工业痛点，代表了推荐系统架构演进的重要方向。

💡 工业界主导大规模数据与模型开源：快手开源了包含数据集、训练框架和模型的推荐基础模型全栈（OpenOneRec）；VK AI发布了超大规模短视频推荐数据集（VK-LSVD）。这表明头部公司正积极推动推荐领域的基础设施建设，通过开源高质量资源吸引社区参与，共同攻克推荐基础模型等前沿难题，加速技术迭代。

Section 2: 📰 Daily Digest

1. OpenOneRec Technical Report

🔗 原文： https://arxiv.org/abs/2512.24762v2

🏷️ 来源： 🏭 工业界 | Kuaishou

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 推荐基础模型的开源里程碑：数据集、框架、模型全栈开源，验证推荐Scaling Law，跨域迁移能力显著。

📊 评分理由： 工业界（快手OneRec团队）。这是一项里程碑式的工作，系统性地构建了推荐基础模型（Foundation-Model）的完整开源框架，包括大规模数据集（RecIF-Bench）、训练流水线（预训练、对齐、蒸馏、RL）和模型家族（1.7B/8B）。核心价值在于：1）首次验证了推荐领域的Scaling Law，发现其数据密集型特性（D_opt ∝ C^0.56）；2）提出并开源了首个覆盖多任务、多领域、多能力的推荐指令跟随评测基准；3）展示了强大的跨域迁移能力（Amazon数据集平均Recall@10提升26.8%）。方法扎实、规模宏大、开源彻底，对业界生成式推荐和基础模型方向有极强的引领和参考价值。5分。

📝 摘要： 快手OneRec团队开源了首个推荐基础模型全栈框架OpenOneRec，旨在构建具备通用智能的推荐系统。核心贡献包括：1）提出并开源了RecIF-Bench，一个涵盖8个任务（从基础预测到复杂推理）的综合性评测基准；2）开源了完整的训练流水线（数据处理、协同预训练、后训练）和包含9600万交互的大规模训练数据集；3）发布了OneRec-Foundation模型家族（1.7B/8B）。该工作首次验证了推荐领域的Scaling Law，并展示了强大的跨域迁移能力（在Amazon 10个数据集上平均Recall@10提升26.8%），是推荐基础模型方向的标杆性工作。

2. SCASRec: A Self-Correcting and Auto-Stopping Model for Generative Route List Recommendation

🔗 原文： https://arxiv.org/abs/2602.03324v2

🏷️ 来源： 🤝 产学合作 | Alibaba, Beijing Institute of Technology, Southern University of Science and Technology

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 阿里高德提出端到端生成式路线推荐，统一精排重排，线上显著降低冗余并提升效果。

📊 评分理由： 工业界（阿里巴巴高德地图）。论文核心贡献是提出一个端到端的生成式列表推荐框架，统一了精排、重排和冗余消除。线上A/B测试验证了其有效性（HR@1提升，冗余路线比例降低50.7%），并已在真实导航App中全量部署。方法上创新性地提出了Stepwise Corrective Reward (SCR)和End-of-Recommendation (EOR) token，解决了离线-在线指标对齐、手工规则僵化和多阶段割裂优化三大工业界核心痛点。这是一项兼具方法创新、扎实实验和显著线上收益的优秀工业实践，对生成式推荐方向有很强的范式启发价值。5分。

📝 摘要： 阿里巴巴高德地图团队提出SCASRec，一个端到端的生成式路线列表推荐框架，旨在解决传统多阶段排序范式的三大痛点：离线-在线指标不对齐、依赖僵化的手工冗余消除规则、以及精排与重排阶段割裂优化。SCASRec采用编码器-解码器架构，通过引入步进式纠正奖励（SCR）来对齐列表级业务目标，并使用可学习的推荐结束（EOR）token来自适应终止生成以控制冗余。该方法已在真实导航App中全量部署，线上A/B测试在保持点击率的同时，将冗余路线比例降低了50.7%。

3. VK-LSVD: A Large-Scale Industrial Dataset for Short-Video Recommendation

🔗 原文： https://arxiv.org/abs/2602.04567v1

🏷️ 来源： 🤝 产学合作 | VK AI, Lomonosov Moscow State University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 工业界发布的超大规模短视频推荐数据集，为序列推荐、冷启动等研究提供了接近真实场景的benchmark。

📊 评分理由： 工业界（VK AI）。发布超大规模短视频推荐数据集VK-LSVD（400亿交互、1000万用户、2000万视频），规模远超现有公开数据集，并提供丰富特征（内容嵌入、多类型反馈、上下文元数据）和严格的时间划分。该数据集已作为VK RecSys Challenge 2025的核心，具有明确的工业实践支撑和社区影响力。作为数据资源类工作，其价值在于为学术界提供接近工业场景的benchmark，但本身不包含算法创新。4分。

📝 摘要： VK AI联合莫斯科国立大学发布了超大规模短视频推荐数据集VK-LSVD。该数据集包含超过400亿次交互、1000万用户和近2000万个视频，时间跨度达6个月，并提供了丰富的特征，包括视频内容嵌入、多种反馈信号（观看时长、点赞、分享等）和上下文元数据。数据集采用严格的全局时间划分，旨在为序列推荐、冷启动等研究提供接近真实工业场景的benchmark，并已成为VK RecSys Challenge 2025的核心数据。

4. DOS: Dual-Flow Orthogonal Semantic IDs for Recommendation in Meituan

🔗 原文： https://arxiv.org/abs/2602.04460v1

🏷️ 来源： 🏭 工业界 | Meituan

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 美团工业实践：提出双流正交语义ID生成方法，线上收入提升1.15%，解决语义ID与生成空间对齐问题。

📊 评分理由： 工业界（美团）。论文提出了一种新的语义ID生成方法DOS，用于生成式推荐系统。核心创新是双流正交残差量化，通过用户-物品双塔架构和正交旋转来对齐语义空间与生成空间，减少量化损失。方法在美团大规模数据集上验证，线上A/B测试带来1.15%的收入提升，已服务数亿用户。这是一项扎实的工业实践，解决了语义ID生成中的关键对齐和量化损失问题，对业界有参考价值。但方法创新更多是工程优化，而非范式突破，故给4分。

📝 摘要： 美团提出DOS方法，用于改进生成式推荐系统中的语义ID生成。针对现有方法存在的语义ID码本空间与生成空间不匹配、以及量化过程语义损失大的问题，DOS采用双流集成架构显式建模用户-物品关系以对齐空间，并引入正交残差量化模块最大化保留LLM生成的语义信息。在美团大规模数据集上的实验表明，DOS生成的语义ID能显著提升下游生成式推荐模型的性能（Hit@10从0.0511提升到0.0676）。线上A/B测试带来了1.15%的收入提升，并已成功部署。

5. Bringing Reasoning to Generative Recommendation Through the Lens of Cascaded Ranking

🔗 原文： https://arxiv.org/abs/2602.03692v2

🏷️ 来源： 🤝 产学合作 | National University of Singapore, University of Science and Technology of China, Renmin University of China, Meta

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 深入剖析生成式推荐的偏差放大问题，提出Cascaded Reasoning框架，在多样性和准确性上取得显著提升。

📊 评分理由： 学术界主导（新加坡国立大学、中科大等）。论文核心贡献是深入分析了生成式推荐（GR）中存在的偏差放大问题，并提出了一个新颖的Cascaded Reasoning框架（CARE）来缓解该问题。方法创新性强，将多阶段排序的“由粗到细”思想引入GR，设计了渐进式历史编码和查询锚定推理机制，实验在多个数据集和GR骨干模型上验证了其在准确性、多样性、效率上的提升。虽无线上验证，但问题定义清晰、方法扎实、实验充分，对生成式推荐这一前沿方向有重要启发价值。4分。

📝 摘要： 论文深入分析了生成式推荐（GR）中存在的“偏差放大”问题，即随着token生成的进行，流行度偏差会不断累积，损害推荐多样性。受传统多阶段排序启发，作者提出CARE框架来缓解此问题。CARE包含两个核心机制：1）渐进式历史编码，根据当前生成token的粒度动态引入不同粒度的历史信息；2）查询锚定推理，通过一组可学习的查询向量与历史进行多次交互，分配更多计算资源进行深度偏好理解。在多个GR骨干模型和数据集上的实验表明，CARE能有效提升推荐准确性和多样性。

6. Zenith: Scaling up Ranking Models for Billion-scale Livestreaming Recommendation

🔗 原文： https://arxiv.org/abs/2601.21285v2

🏷️ 来源： 🤝 产学合作 | ByteDance, Tiktok, NC State University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 字节跳动直播推荐排序模型优化，线上AB验证显著收益，提出Tokenwise处理新架构。

📊 评分理由： 工业界（字节跳动/TikTok）。提出Zenith/Zenith++排序架构，在TikTok Live直播推荐场景完成线上AB测试，获得显著收益（CTR AUC +1.05%，高质量观看时长+8.11%）。核心创新在于Prime Token设计及Tokenwise处理模块（Token Fusion/Token Boost），通过维持Token异质性实现了优于DCN-V2、Wukong等基线的扩展规律。方法扎实，线上验证充分，是典型的工业界排序模型优化实践。虽非范式级突破，但工程细节和实验分析对业界有很强参考价值。4分。

📝 摘要： 字节跳动提出Zenith排序架构，用于TikTok Live直播推荐场景的精排模型扩展。核心创新是将大量稀疏特征嵌入分组为少量高维Prime Token，并通过Token Fusion和Token Boost模块进行交互和增强。Zenith++版本引入了Tokenwise稀疏MoE，在增加总参数量的同时控制激活参数量。该方法通过维持Token异质性实现了优于基线的扩展规律。线上A/B测试在TikTok Live平台验证了其有效性，带来了CTR AUC提升1.05%和高质量观看时长提升8.11%的显著收益。

7. Less Finetuning, Better Retrieval: Rethinking LLM Adaptation for Biomedical Retrievers via Synthetic Data and Model Merging

🔗 原文： https://arxiv.org/abs/2602.04731v1

🏷️ 来源： 🤝 产学合作 | Microsoft, University Hospital Essen

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 面向RAG的检索器优化技术，方法扎实，但与推荐系统核心问题关联较弱。

📊 评分理由： 工业界（微软、医院合作）。核心贡献是面向RAG系统的检索器（Retriever）优化，属于信息检索领域，而非推荐系统核心的“给用户推荐什么item”问题。方法上结合了合成数据、提示优化和模型融合，技术扎实，实验充分。但对于推荐系统领域，属于边缘应用，价值有限。3分。

📝 摘要： 论文提出STM框架，用于将通用LLM高效适配为特定领域（如生物医学）的高性能检索器。框架包含三个模块：使用GPT-4.1生成合成难负例、利用自动提示优化方法优化检索提示、以及采用模型融合技术将多个领域专家模型合并为一个统一模型。实验在MTEB基准的12个医学和通用任务上进行，结果表明STM能显著提升检索性能，且无需大量预训练。该工作主要面向RAG系统的检索组件优化。

8. MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation

🔗 原文： https://arxiv.org/abs/2602.04278v1

🏷️ 来源： 🎓 学术界 | The Hong Kong Polytechnic University, National University of Singapore, The Chinese University of Hong Kong

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 为RL-based LLM推荐提出高效数据选择框架，实验扎实但问题非核心。

📊 评分理由： 学术界主导（香港理工大学、新加坡国立大学）。论文核心是提升RL-based LLM推荐模型的训练效率，提出了一个数据选择框架MiniRec。方法设计有针对性，结合了奖励、梯度对齐和多样性，实验在公开数据集上验证了有效性，能显著减少训练时间。然而，问题本身属于推荐系统边缘问题（训练效率优化），而非核心的“推荐什么item”问题。方法创新属于已有数据选择范式的RL场景适配，缺乏范式突破。3分。

📝 摘要： 论文针对RL-based LLM推荐模型训练成本高昂的问题，提出了MiniRec数据选择框架。MiniRec根据RL训练动态，使用奖励信号评估样本的可学习性，通过样本梯度与全局优化轨迹的对齐来评估代表性，并强制多样性以减少冗余。结合从易到难的课程学习策略，MiniRec能在保持模型性能的同时，将训练时间减少约82%。实验在公开数据集上验证了其有效性。

9. LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

🔗 原文： https://arxiv.org/abs/2602.04263v1

🏷️ 来源： 🎓 学术界 | POSTECH, DirectorLabs

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 面向多模态文档检索的分层图检索方法，在信息检索领域有创新，但与推荐系统核心问题关联度不高。

📊 评分理由： 学术界（POSTECH）。研究多模态文档检索，核心是解决固定粒度检索和多跳推理问题。方法创新在于分层组件图构建和基于延迟交互的子图检索。实验在5个benchmark上达到SOTA，但属于信息检索（IR）领域，与推荐系统核心的“为用户推荐什么item”问题关联较弱。方法虽有启发，但对推荐系统算法工程师的直接参考价值有限。3分。

📝 摘要： 论文提出LILaC框架，用于开放域多模态多跳文档检索。核心创新是构建了一个分层组件图，包含粗粒度和细粒度两层节点，以显式表示多模态信息及其关系。检索时采用基于延迟交互的子图检索方法，首先识别粗粒度节点生成候选，然后通过延迟交互进行细粒度推理。实验在五个多模态检索基准上达到了SOTA性能，且无需对预训练编码器进行微调。

10. Scalable Dynamic Embedding Size Search for Streaming Recommendation

🔗 原文： https://arxiv.org/abs/2407.15411v4

🏷️ 来源： 🎓 学术界 | The University of Queensland, Southern University of Science and Technology, City University of Hong Kong, Griffith University

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出基于强化学习的动态Embedding尺寸搜索方法，在固定内存预算下优化流式推荐性能。

📊 评分理由： 学术界主导（昆士兰大学等）。研究流式推荐中的动态Embedding尺寸搜索，核心贡献是提出一个基于RL的策略（SCALL），能在固定内存预算下自适应调整用户/物品的Embedding维度。方法设计有创新，实验在公开数据集上验证了有效性。但缺乏线上AB验证，且问题（Embedding压缩）属于推荐系统的性能优化子问题，而非核心的排序或召回问题。方法扎实但工业落地价值需进一步验证，锚定3分。

📝 摘要： 论文提出SCALL方法，用于解决流式推荐场景下Embedding Table内存消耗不断增长的问题。SCALL通过强化学习策略，在给定的固定内存预算内，自适应地为用户和物品分配差异化的Embedding维度。方法采用幂律分布采样来生成分配方案，并设计固定长度的状态表示以应对动态变化的用户/物品数量。在公开数据集上的实验表明，SCALL能在相同或更低内存预算下超越静态和其他动态Embedding分配方法。

Section 3: 🔍 Deep Dive

OpenOneRec Technical Report

🔗 原文： https://arxiv.org/abs/2512.24762v2

🏷️ 来源： 🏭 工业界 | Kuaishou

💡 问题与动机

当前生成式推荐模型（如OneRec系列）虽统一了推荐流水线，但仍受限于孤立的数据，缺乏通用世界知识、推理能力和指令跟随能力，与通用智能存在差距。同时，缺乏一个全面的评测基准来评估这种综合能力。这限制了推荐系统向真正智能化的演进。

🧠 核心贡献

RecIF-Bench与开源数据：提出首个全面的推荐指令跟随评测基准（8个任务），并开源包含9600万交互的大规模训练数据集。

开源框架与验证的Scaling Law：开源完整的训练流水线，并首次在推荐领域验证了Scaling Law，发现推荐能力可预测地随数据和模型规模扩展，同时能有效缓解通用知识的灾难性遗忘。

OneRec-Foundation模型家族：开源基于Qwen架构的1.7B和8B推荐基础模型，在RecIF-Bench和Amazon跨域基准上均达到SOTA，展示了强大的通用性和迁移能力。

🛠️ 核心方法

整体流程分为预训练、后训练和评估三阶段。预训练通过Itemic-Text对齐和混合域协同预训练，将物品语义（Itemic Tokens）与通用文本语义对齐。后训练通过多任务SFT、通用能力蒸馏和推荐RL（Rec-RL）三个阶段，解锁下游能力并平衡通用知识与推荐性能。

关键技术点1：Itemic Tokens：使用RQ-Kmeans将物品元数据的语义嵌入离散化为三层分层离散码，作为物品的统一表示，压缩语义并便于知识迁移。

关键技术点2：两阶段对齐预训练：第一阶段（Itemic-Text对齐）学习物品语义与文本的映射；第二阶段（全参数协同预训练）在混合语料（推荐数据+通用文本）上训练，注入推荐能力。

关键技术点3：三阶段后训练：1) 多任务SFT：在RecIF-Bench的8个任务上指令微调；2) 通用能力蒸馏：使用教师模型（如GPT-4）通过策略蒸馏恢复通用能力；3) Rec-RL：使用基于命中的稀疏奖励进行强化学习，优化生成行为与推荐目标的对齐。

🔍 关键细节（我关心能不能复现）

训练数据构造：预训练数据包含开源推荐数据（96M交互）和通用文本语料（代码、数学、网页等）。后训练SFT数据基于RecIF-Bench任务构造指令样本。

损失函数与训练策略：预训练使用标准语言建模损失。后训练SFT使用交叉熵损失。Rec-RL使用PPO算法，奖励为命中奖励（生成token序列与真实物品ID匹配则得+1，否则为0）。

推理流程与代价：模型以自回归方式生成Itemic Tokens序列作为推荐结果。支持长上下文（32K），推理时延未明确说明，但基于Transformer解码器架构，时延与序列长度和模型规模相关。

📈 实验效果

数据/场景与指标：在自建RecIF-Bench（8个任务）和Amazon跨域基准（10个数据集）上评估。指标包括Recall@K、NDCG、MRR及通用能力评测分数。

主要结果：OneRec-Foundation在RecIF-Bench所有任务上达到SOTA。在Amazon基准上，平均Recall@10超越最强基线26.8%。在少样本（10%数据）设定下，性能保留率（45.2%）远高于TIGER（23.0%）。

最关键的消融/对比：验证了Scaling Law：推荐性能与计算量C呈幂律关系，最优数据量D_opt ∝ C^0.56，表明推荐是数据密集型的。消融实验证明后训练三阶段（SFT+蒸馏+RL）均不可或缺。

⚠️ 风险与边界

计算成本高昂：训练需要数百B token数据和数千GPU时，复现门槛极高。

语义ID依赖：模型性能高度依赖于Itemic Tokens的生成质量，若物品语义表示不佳，会限制模型上限。

在线服务挑战：8B模型的自回归推理时延在工业级高并发场景下面临挑战，可能需要蒸馏或工程优化。

💼 工业启发

保守：借鉴其语义ID（Itemic Tokens）构建方法，用于改进现有系统中的物品表示，或在小规模场景试验端到端生成式推荐。

中等：利用其开源的训练框架和RecIF-Bench，在自己的业务数据上尝试训练小规模的推荐基础模型，验证跨任务、跨域迁移能力。

激进：参考其全栈架构，在资源允许的情况下，尝试构建面向自身业务生态的推荐基础模型，统一各垂直场景的推荐服务，探索Scaling Law。

SCASRec: A Self-Correcting and Auto-Stopping Model for Generative Route List Recommendation

🔗 原文： https://arxiv.org/abs/2602.03324v2

🏷️ 来源： 🤝 产学合作 | Alibaba, Beijing Institute of Technology, Southern University of Science and Technology

💡 问题与动机

传统路线推荐采用精排+重排的两阶段流水线，存在三大痛点：1) 离线训练目标（如点击率）与在线列表级业务指标（如覆盖率、多样性）不对齐；2) 冗余消除依赖僵化的手工规则，无法适应复杂多变的用户意图和场景；3) 精排与重排阶段割裂优化，无法实现全局最优。

🧠 核心贡献

统一生成式框架：提出SCASRec，将精排、重排和冗余消除统一到一个端到端的编码器-解码器生成框架中。

步进式纠正奖励（SCR）：设计了一种基于列表覆盖率（LCR）的步进奖励信号，利用离线日志中的列表级信号来对齐在线指标，引导模型进行列表级优化。

可学习的推荐结束（EOR）Token：引入EOR token作为自适应停止机制，替代手工冗余规则，动态控制推荐列表长度。

🛠️ 核心方法

整体流程：编码器处理候选路线特征、场景上下文和用户历史序列，生成状态表示。解码器基于该表示，自回归地生成路线ID序列，并以EOR token结束。训练时，结合加权交叉熵损失（优化MRR）和SCR奖励（优化LCR），并监督EOR token的生成。

关键技术点1：Stepwise Corrective Reward (SCR)：在每一步生成时，计算当前部分列表对真实交互列表的覆盖率的期望边际增益，作为附加的奖励信号。该信号鼓励模型不仅关注当前步的点击概率，还关注其对最终列表整体覆盖度的贡献。

关键技术点2：End-of-Recommendation (EOR) Token：在训练数据中，在真实路线被生成后立即添加EOR token作为标签。模型学习预测EOR，从而在推理时能自适应地终止生成。还引入了噪声感知训练策略，根据数据质量调整EOR的监督强度。

关键技术点3：多场景自注意力编码器：编码器采用多场景自注意力机制，分别处理路线特征、场景上下文和用户历史序列，再融合生成统一的状态表示，以捕捉复杂的环境信息。

🔍 关键细节（我关心能不能复现）

训练数据构造：使用真实导航日志，包含用户查询、候选路线集合、用户点击的路线（作为正样本）及丰富的路线特征、场景特征和用户历史序列。

损失函数与训练策略：全局损失函数L = L_rank + λ1 * L_scr + λ2 * L_eor。L_rank是加权交叉熵损失（聚焦难样本），L_scr是SCR相关的损失，L_eor是EOR预测的交叉熵损失。采用端到端训练。

推理流程与代价：推理时，模型自回归生成路线ID，直到输出EOR token或达到最大生成长度。编码器一次编码所有候选，解码器逐步生成，计算代价与候选集大小和生成长度相关。

📈 实验效果

数据/场景与指标：在两个开源大规模路线推荐数据集上评估。离线指标包括MRR、Recall@K、列表覆盖率（LCR）；线上A/B测试指标包括HR@1、平均列表长度、低多样性比例（LDR）、冗余路线比例（RRR）。

主要结果：离线实验显示SCASRec在MRR和LCR上均优于精排（DSFNet）和重排（PRM）基线及其组合。线上A/B测试显示，相比原有方案（PRM+DSFNet+规则），SCASRec在HR@1微升的情况下，平均列表长度从4.313降至4.171，LDR降低39.6%，RRR大幅降低50.7%。

最关键的消融/对比：消融实验证明了SCR和EOR模块各自的有效性。对比实验表明，SCASRec显著优于仅使用精排损失、或精排损失+手工规则的方案，验证了统一框架和学得机制的优势。

⚠️ 风险与边界

场景特异性：方法针对路线列表推荐设计，其候选集相对固定且特征明确，迁移到物品候选集动态变化、特征稀疏的通用推荐场景（如电商）可能需要调整。

训练稳定性：联合优化排序、覆盖率和停止信号可能增加训练难度，需要仔细调参。

EOR Token的泛化：EOR token的学习依赖于训练数据中“结束点”的标注质量，在用户行为噪声较大的场景下可能不稳定。

💼 工业启发

保守：借鉴其SCR思想，在现有精排模型基础上，尝试引入列表级的辅助损失（如基于曝光的覆盖率损失），以隐式地优化多样性。

中等：在重排阶段，尝试用类似的生成式框架（编码器-解码器）替代现有的列表级模型，并引入可学习的停止机制，逐步替换手工规则。

激进：在合适的业务场景（如套餐推荐、歌单推荐等列表生成任务），直接尝试部署端到端的生成式推荐框架，统一精排和重排，并基于业务日志定义自己的“纠正奖励”。