推荐算法日报 - 2026-02-17

type

status

date

slug

summary

Section 1: 📊 Trend Analysis

🔥 生成式推荐迈向工业级长序列建模：今日多篇论文聚焦于将生成式推荐（Generative-Rec）范式推向工业级应用，核心挑战是处理超长用户行为序列。快手GEMs通过多流解码器（Recent/Mid-term/Lifecycle）解耦终身序列，字节MixFormer则通过统一架构协同扩展序列与特征交互。这标志着生成式推荐正从概念验证走向解决实际工程瓶颈。

💡 LLM深度赋能检索与评估新范式：LLM正从简单的特征提取器演变为重构检索系统核心流程的关键组件。阿里巴巴Pailitao-VL利用LLM构建语义原型库，将Embedding范式革新为“绝对ID识别”；SAP则用LLM预测用户意图以优化RAG文档分块。同时，学术界论文警示了LLM推荐中基准数据泄露对评估可靠性的严峻挑战，为热潮提供了必要的冷思考。

🔧 工业场景驱动特征与架构的精细化创新：工业界论文展现出强烈的场景驱动特性，针对具体业务痛点提出精巧解法。亚马逊通过“替代品关系”聚合行为信号为新商品暖启动；阿里闲鱼针对Trigger-Induced Recommendation场景建模多样化意图以缓解“短视”问题。这些工作表明，在基础模型架构趋于稳定的背景下，面向场景的特征工程与轻量级架构改造成为获取线上收益的关键。

Section 2: 📋 今日速览

今日速览

字节跳动提出统一Transformer架构MixFormer，协同扩展序列与特征交互，用户活跃与时长显著提升 ↗

阿里巴巴提出工业级多模态检索系统Pailitao-VL，ID识别Embedding与列表式Reranker新范式，GMV显著提升 ↗

快手提出首个工业级终身序列生成式推荐框架GEMs，多流解码器突破长序列瓶颈，线上时长指标正向 ↗

网易云音乐提出生成式检索框架Climber-Pilot，解决短视预测与指令遵从，线上核心指标+4.24% ↗

SAP 提出意图驱动的文档分块算法IDC，优化RAG/检索系统预处理，召回率显著提升且分块数减少40%-60% ↗

Amazon 提出利用替代品关系进行行为特征增强，缓解电商搜索冷启动，新商品销售额提升+0.35% ↗

阿里闲鱼提出DAIAN模型解决TIR场景意图短视问题，线上CTR+1.59%、多样性+1.73% ↗

南京大学首次系统揭示LLM推荐中的基准数据泄露陷阱，对评估可靠性提出重要警示 ↗

南方科技大学提出ACERec框架，通过注意力令牌合并解决长语义ID的表达力与效率权衡，NDCG@10平均提升14.40% ↗

林茨大学将自适应引导机制引入扩散推荐以提升物品侧公平性，长尾曝光提升7.9%-12.1% ↗

Section 3: 📰 Daily Digest

1. MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders

🔗 原文： https://arxiv.org/abs/2602.14110v1

🏷️ 来源： 🏭 工业界 | ByteDance

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 字节跳动提出统一Transformer架构MixFormer，解决序列与特征交互协同扩展难题，线上AB验证用户活跃与时长显著提升。

📝 摘要： 本文针对工业推荐系统中序列建模与特征交互模块分离导致的参数分配和协同扩展难题，提出了MixFormer统一Transformer架构。该架构设计了Query Mixer、Cross Attention和Output Fusion模块，在一个共享参数空间内同时建模序列行为和特征交互，实现了深度融合。为满足工业级效率要求，进一步提出了User-Item Decoupling策略，支持请求级批处理以大幅降低推理延迟。在抖音和抖音极速版的大规模线上A/B测试中，MixFormer对比超10亿参数基线，在用户活跃天数、应用内使用时长等核心指标上取得了全面正向收益，是Transformer架构在推荐领域深度改造与成功落地的典范。

2. Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

🔗 原文： https://arxiv.org/abs/2602.13704v1

🏷️ 来源： 🏭 工业界 | Alibaba

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 阿里巴巴工业级多模态检索系统，提出ID识别Embedding和列表式Reranker新范式，线上GMV显著提升。

📝 摘要： 本文提出了面向阿里巴巴电商平台的工业级多模态检索系统Pailitao-VL，旨在解决细粒度检索、环境噪声和效率瓶颈三大挑战。其核心贡献在于两大范式革新：首先，将Embedding范式从对比学习转变为基于十亿级语义原型的“绝对ID识别”任务，实现了实例级细粒度检索；其次，将生成式Reranker从点式评估演进为“比较-校准”的列表式策略，通过分块比较推理与绝对相关性打分的结合，在保证精度的同时将推理延迟大幅降低。该系统经过大规模线上A/B测试验证，为多个品类带来了显著的GMV提升，展示了先进MLLM检索架构在高并发生产环境中的可落地路径。

3. GEMs: Breaking the Long-Sequence Barrier in Generative Recommendation with a Multi-Stream Decoder

🔗 原文： https://arxiv.org/abs/2602.13631v1

🏷️ 来源： 🏭 工业界 | Kuaishou

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 快手提出首个工业级终身序列生成式推荐框架，线上AB验证显著收益，长序列建模工程范式的突破。

📝 摘要： 为解决生成式推荐处理超长用户终身序列（超10万交互）时的计算成本高和注意力“近期偏好”瓶颈，本文提出了GEMs框架。其核心创新在于采用多流视角，将用户行为按时间尺度解耦为Recent、Mid-term和Lifecycle三流，并分别设计轻量级索引器、离线压缩模块等针对性推理方案，在保证效率的同时突破了传统生成式推荐的序列长度限制。通过一系列训练与推理优化（如混合精度、TensorRT），该框架成功部署于快手高并发生产环境，线上A/B测试在App使用时长和视频观看时长等指标上取得了显著提升，是首个成功落地的终身序列生成式推荐系统。

4. Climber-Pilot: A Non-Myopic Generative Recommendation Model Towards Better Instruction-Following

🔗 原文： https://arxiv.org/abs/2602.13581v1

🏷️ 来源： 🏭 工业界 | NetEase Cloud Music

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 网易云音乐生成式检索工业实践，解决短视预测与指令遵从，线上核心指标+4.24%。

📝 摘要： 本文针对生成式检索在工业落地中的两大痛点——单步推理导致的“短视”问题以及业务指令遵从困难，提出了Climber-Pilot统一框架。该框架引入了时间感知多项目预测训练范式，通过时间感知掩码将长时多步的用户意图蒸馏到模型参数中，以缓解局部最优预测；同时，提出了条件引导的稀疏注意力机制，将品类控制等业务约束直接融入生成过程，无需额外推理步骤。该框架在网易云音乐生产环境中进行了大规模线上A/B测试，在核心业务指标上取得了4.24%的显著提升，验证了其在提升召回质量和实现可控推荐方面的有效性。

5. Intent-Driven Dynamic Chunking: Segmenting Documents to Reflect Predicted Information Needs

🔗 原文： https://arxiv.org/abs/2602.14784v1

🏷️ 来源： 🤝 产学合作 | SAP, University of Limerick

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 为RAG/检索系统提出意图驱动的文档分块新范式，显著提升召回率并减少索引开销，工业落地性强。

📝 摘要： 本文解决了RAG及检索系统中文档分块这一关键预处理问题，提出了意图驱动的动态分块方法。该方法利用LLM预测文档可能回答的用户问题（意图），并以此为指导，通过动态规划算法寻找全局最优的分块边界，使分块结构与潜在的信息需求对齐。在包括技术文档在内的多个QA数据集上的实验表明，IDC方法相比传统的固定长度或基于连贯性的分块策略，能显著提升Top-1检索准确率（最高提升67%），同时生成的分块数量减少40%-60%，在提升召回性能的同时大幅优化了索引效率，对工业界优化文档检索系统具有直接参考价值。

6. Behavioral Feature Boosting via Substitute Relationships for E-commerce Search

🔗 原文： https://arxiv.org/abs/2602.14502v1

🏷️ 来源： 🏭 工业界 | Amazon

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： Amazon电商搜索冷启动实战：利用替代品行为信号为新商品“暖启动”，线上验证有效。

📝 摘要： 本文针对电商平台新商品的冷启动问题，提出了一种简单有效的特征增强方法。该方法通过识别新商品的替代品（满足相似用户需求的商品），并聚合这些替代品的历史行为信号（如点击、购买、销售速度），为新商品生成“暖启动”特征，以弥补其自身交互数据的稀疏性。将这些增强特征集成到排序模型中，可以有效提升新商品在搜索结果中的相关性和竞争力。该方法已在亚马逊生产环境部署，线上A/B测试验证了新商品销售额等单位指标的显著提升，为业界解决冷启动问题提供了一个可扩展、可复现的实用方案。

7. DAIAN: Deep Adaptive Intent-Aware Network for CTR Prediction in Trigger-Induced Recommendation

🔗 原文： https://arxiv.org/abs/2602.13971v1

🏷️ 来源： 🏭 工业界 | Alibaba

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 阿里闲鱼TIR场景的工业实践，线上收益显著，方法对意图短视问题有针对性改进。

📝 摘要： 本文针对电商Trigger-Induced Recommendation场景中系统过度聚焦于触发商品导致的“意图短视”问题，提出了DAIAN模型。该模型通过用户意图建模模块将用户意图表示为概率分布，并利用多样化意图提取模块从历史行为中挖掘显式与隐式意图，同时通过相似度增强模块融合ID与多模态语义信息来强化物品关联。采用三阶段训练策略确保模型收敛。在闲鱼工业数据集及线上A/B测试中，DAIAN在CTR、推荐多样性及订单量等指标上均取得显著提升，有效平衡了推荐的相关性与多样性。

8. Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?

🔗 原文： https://arxiv.org/abs/2602.13626v1

🏷️ 来源： 🎓 学术界 | Nanjing University, Tianjin University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 首次系统揭示LLM推荐中的基准数据泄露陷阱，对评估可靠性提出重要警示，实验设计严谨，结论启发性强。

📝 摘要： 本文首次系统性地识别并实证研究了LLM-based推荐系统中被忽视的基准数据泄露问题。该问题指LLM在预训练或微调阶段接触并记忆了评估基准数据，导致下游推荐任务的性能指标被虚假抬高。作者通过设计严谨的LoRA微调实验模拟不同泄露场景，发现泄露数据的领域相关性具有双重影响：领域内泄露会产生显著的虚假性能增益，而领域外泄露则可能导致性能下降。这一研究揭示了当前LLM推荐研究在评估环节存在的严重隐患，对如何可靠地评估和比较LLM推荐模型提出了重要警示。

9. Unleash the Potential of Long Semantic IDs for Generative Recommendation

🔗 原文： https://arxiv.org/abs/2602.13573v1

🏷️ 来源： 🎓 学术界 | Southern University of Science and Technology, Nanjing University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 提出ACERec框架，通过注意力令牌合并和双粒度优化，有效解决了长语义ID在生成式推荐中的表达力与效率权衡问题。

📝 摘要： 本文旨在解决基于语义ID的生成式推荐中，长ID表达力强但计算效率低、短ID效率高但表达力有限的根本矛盾。为此，提出了ACERec框架，其核心是使用注意力令牌合并器将长的、细粒度的语义令牌自适应地压缩为紧凑的潜在表示，供下游序列模型高效使用，并引入意图令牌作为动态预测锚点。通过协调细粒度令牌预测与全局物品级语义对齐的双粒度优化目标进行训练。在六个真实数据集上的实验表明，ACERec能显著提升推荐效果，并在冷启动物品上表现出更强的鲁棒性，为生成式推荐中平衡语义丰富性与计算效率提供了新思路。

10. Adaptive Autoguidance for Item-Side Fairness in Diffusion Recommender Systems

🔗 原文： https://arxiv.org/abs/2602.14706v1

🏷️ 来源： 🎓 学术界 | Johannes Kepler University Linz

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 将自适应引导机制引入扩散推荐，在提升物品侧公平性方面取得平衡效果。

📝 摘要： 本文针对扩散推荐模型存在的流行度偏差问题，提出了A2G-DiffRec模型以提升物品侧曝光公平性。该方法借鉴图像生成中的自引导概念，使用一个训练不足的弱扩散模型来引导主模型，并设计了一个自适应引导网络，动态学习融合权重。同时，引入统一流行度正则化损失，直接优化物品曝光分布的平衡性。在多个公开数据集上的实验表明，该方法能有效提升长尾物品的曝光比例，且仅以微小的精度损失为代价，为在扩散推荐这一前沿范式中实现公平性提供了一种可行的技术路径。