推荐算法日报 - 2026-03-03

type

Post

status

Published

date

Mar 3, 2026 15:21

slug

daily-report-2026-03-03

summary

大模型驱动的推荐系统优化：今日多篇论文聚焦于利用大语言模型（LLM）和多模态大语言模型（MLLM）解决推荐系统核心问题。从阿里巴巴的LaSER框架将推理能力内化到稠密检索，到小红书IDProxy用MLLM生成代理嵌入解决冷启动，再到百度与中科院合作优化多模态嵌入预训练，大模型正从内容理解、表示学习到推理决策，深度融入召回与排序环节。; 工业级验证与系统约束考量：工业界论文展现出对生产环境约束的深刻洞察。Dell的RAG部署实证表明，在固定检索深度和延迟约束下，单纯的召回提升可能无法转化为端到端收

Section 1: 📊 Trend Analysis

🔥 大模型驱动的推荐系统优化：今日多篇论文聚焦于利用大语言模型（LLM）和多模态大语言模型（MLLM）解决推荐系统核心问题。从阿里巴巴的LaSER框架将推理能力内化到稠密检索，到小红书IDProxy用MLLM生成代理嵌入解决冷启动，再到百度与中科院合作优化多模态嵌入预训练，大模型正从内容理解、表示学习到推理决策，深度融入召回与排序环节。

💡 工业级验证与系统约束考量：工业界论文展现出对生产环境约束的深刻洞察。Dell的RAG部署实证表明，在固定检索深度和延迟约束下，单纯的召回提升可能无法转化为端到端收益。Avito的DenoiseBid和阿里巴巴的MAC基准则分别关注预测不确定性和归因机制等实际业务痛点，强调算法需在系统工程和业务逻辑的框架下进行设计与评估。

🔬 多模态与跨模态表示学习深化：学术界研究持续探索多模态推荐的深层问题。CLEAR方法通过零空间投影解决跨模态冗余，MealRec利用扩散模型处理视频模态噪声与冲突，ReFeed则关注查询与文档的风格对齐。这些工作表明，超越简单的模态融合，深入理解模态间关系、去噪与对齐，是提升多模态推荐效果的关键方向。

Section 2: 📋 今日速览

今日速览

Dell 实证评估RAG融合技术，生产约束下Hit@10从0.51降至0.48 ↗

Avito 提出DenoiseBid贝叶斯校正CTR/CVR预测噪声，提升自动出价效率 ↗

Alibaba 提出LaSER框架，将显式推理内化到隐式空间，实现高效推理增强检索 ↗

Xiaohongshu 用多模态LLM生成代理嵌入解决物品冷启动，线上CTR+2.1% ↗

Alibaba 发布多归因CVR预测基准MAC及MoAE模型，推动归因学习研究 ↗

MODULABS 提出检索反馈引导数据集构建框架，用于风格感知查询重写 ↗

国防科大提出分层扩散模型MealRec，解决微视频推荐噪声与模态冲突 ↗

中科大提出生成式视频广告个性化新范式NextAds，定义核心任务与基准 ↗

合肥工大提出轻量级跨模态去冗余方法CLEAR，通过零空间投影提升性能 ↗

Baidu 提出CoCoA预训练范式，通过协作注意力重构任务提升多模态嵌入质量 ↗

Section 3: 📰 Daily Digest

1. Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment

🔗 原文： https://arxiv.org/abs/2603.02153

🏷️ 来源： 🏭 工业界 | Dell Technologies

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 工业界RAG系统部署实证：融合技术在生产约束下可能无效甚至有害。

📝 摘要： 本文基于Dell的企业知识库生产环境，评估了检索增强生成（RAG）中多查询检索与融合技术的实际效果。研究发现，在固定检索深度、重排预算和延迟约束下，融合技术虽能提升原始召回率，但这些增益在重排和截断后基本被抵消，甚至导致端到端性能下降（Hit@10从0.51降至0.48）。论文提供了宝贵的系统工程经验，指出单纯优化检索指标未必能带来下游任务增益，对设计生产级RAG系统有重要警示作用。

2. Uncertainty Quantification of Click and Conversion Estimates for the Autobidding

🔗 原文： https://arxiv.org/abs/2603.01825

🏷️ 来源： 🤝 产学合作 | Avito, HSE, MSU

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 提出DenoiseBid方法，通过贝叶斯校正CTR/CVR预测不确定性，提升自动出价效率。

📝 摘要： 针对广告自动出价算法依赖的CTR/CVR预测存在噪声的问题，本文提出DenoiseBid方法。该方法采用贝叶斯框架，从预测模型中恢复CTR/CVR的分布，并用后验期望替代原始噪声估计，从而校正出价偏差。在iPinYou和BAT等真实数据集上的实验验证了其有效性。该方法直接针对广告业务的核心痛点，为提升出价效率和平台收入提供了新颖的技术思路。

3. LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

🔗 原文： https://arxiv.org/abs/2603.01425

🏷️ 来源： 🤝 产学合作 | Alibaba, Renmin University of China

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 阿里巴巴提出LaSER框架，将显式推理内化到隐式空间，实现高效推理增强的稠密检索。

📝 摘要： 为了在稠密检索中利用大语言模型的推理能力而不引入高延迟，本文提出LaSER自蒸馏框架。该框架在共享的LLM骨干上构建双视图：显式视图编码真实推理路径，隐式视图进行潜在思考。通过设计多粒度对齐策略，特别是轨迹对齐机制，将显式推理的语义进程同步到隐式路径的中间状态，使检索器能够“静默思考”。在多个推理密集型基准测试上，LaSER显著超越了现有SOTA方法，成功结合了推理深度与推理效率。

4. IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs

🔗 原文： https://arxiv.org/abs/2603.01590

🏷️ 来源： 🤝 产学合作 | Xiaohongshu, Shanghai Jiao Tong University, Fudan University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 小红书工业部署：用多模态LLM生成代理嵌入解决物品冷启动CTR预测，线上A/B测试有效。

📝 摘要： 本文提出IDProxy方法，解决推荐与广告系统中新物品（冷启动）因缺乏ID嵌入而CTR预测不准的难题。该方法利用多模态大语言模型从丰富的物品内容信号中生成代理嵌入，并将其与现有的ID嵌入空间进行显式对齐，最终在CTR目标下与排序模型进行端到端联合优化。该方法已成功部署于小红书的探索信息流和展示广告业务，线上A/B测试带来CTR提升2.1%，CVR提升2.5%，为物品冷启动问题提供了可落地的LLM解决方案。

5. MAC: A Conversion Rate Prediction Benchmark Featuring Labels Under Multiple Attribution Mechanisms

🔗 原文： https://arxiv.org/abs/2603.02184

🏷️ 来源： 🤝 产学合作 | Alibaba, Nanjing University

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 阿里巴巴发布首个多归因CVR预测基准MAC及MoAE模型，推动归因学习研究。

📝 摘要： 为促进多归因学习在CVR预测中的研究，本文发布了首个包含多种归因机制标签的公开基准数据集MAC，并配套开源了PyMAL算法库。基于对MAC的深入分析，论文提出了混合非对称专家模型MoAE，该模型通过专门设计来充分学习多归因知识并服务于主任务。实验表明MoAE显著超越了现有的SOTA方法。这项工作为学术界和工业界研究归因不确定性提供了重要的数据和工具基础。

6. ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting

🔗 原文： https://arxiv.org/abs/2603.01417

🏷️ 来源： 🎓 学术界 | MODULABS, Samsung SDS, Dable, MIRI D.I.H Co., Ltd., Lomin

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出检索反馈引导的数据集构建框架，用于风格感知查询重写，提升检索性能。

📝 摘要： 本文针对用户查询与领域文档在语言风格上不匹配导致检索失败的问题，提出了ReFeed框架。该框架利用检索反馈自动识别失败案例，驱动大语言模型将查询重写为与相关文档风格一致的表述，并通过重新检索验证改进效果，从而构建用于训练风格感知重写模型的数据集。这项工作为以数据为中心的信息检索提供了新思路，强调了反馈循环和文档风格对齐对于提升RAG系统在真实领域场景中适应性的重要性。

7. MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation

🔗 原文： https://arxiv.org/abs/2603.01926

🏷️ 来源： 🎓 学术界 | National University of Defense Technology, National University of Singapore

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出分层扩散模型MealRec，解决微视频推荐中的噪声和模态冲突问题。

📝 摘要： 为解决微视频推荐中多模态内容噪声和不可靠隐式反馈带来的挑战，本文提出了MealRec。该方法采用分层扩散模型进行多粒度序列建模：首先，时序引导的内容扩散模块在视频内部时序和协同信号的指导下细化视频表示，突出 salient 内容；其次，噪声无条件偏好去噪模块从被破坏的状态中恢复信息丰富的用户偏好。在四个微视频数据集上的实验证明了该方法的有效性和鲁棒性，为利用扩散模型处理推荐中的噪声问题提供了新的视角。

8. NextAds: Towards Next-generation Personalized Video Advertising

🔗 原文： https://arxiv.org/abs/2603.02137

🏷️ 来源： 🎓 学术界 | University of Science and Technology of China, Hohai University, National University of Singapore

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出生成式视频广告个性化新范式，定义核心任务与基准，探索GenAI在广告创意生成与集成中的应用。

📝 摘要： 本文提出了NextAds，一个面向下一代个性化视频广告的生成式新范式，旨在超越当前基于检索的、从有限创意库中选择的范式。论文概念化了NextAds的四个核心组件，并 formulated 了两个代表性任务：个性化创意生成和个性化创意集成，同时引入了相应的轻量级基准。通过实例化端到端流程并进行初步探索性实验，验证了生成式AI在此范式下的可行性。这项工作系统性地展望了生成式AI重塑视频广告的可能性，为后续研究指明了方向。

9. CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation

🔗 原文： https://arxiv.org/abs/2603.01536

🏷️ 来源： 🎓 学术界 | Hefei University of Technology, National University of Singapore, Huazhong University of Science and Technology

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出轻量级跨模态去冗余方法CLEAR，通过零空间投影提升多模态推荐性能。

📝 摘要： 本文指出，现有多模态推荐器中的跨模态表示往往存在大量冗余，限制了互补信息的利用。为此，提出了CLEAR这一轻量级即插即用的跨模态去冗余方法。CLEAR通过建模视觉和文本表示间的协方差来刻画跨模态共享冗余子空间，然后利用奇异值分解识别主导共享方向，并将多模态特征投影到互补的零空间，从而在抑制冗余成分的同时保留模态特异性信息。在三个公开数据集上的实验表明，该方法能一致地提升多种多模态推荐模型的性能。

10. Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality

🔗 原文： https://arxiv.org/abs/2603.01471

🏷️ 来源： 🤝 产学合作 | Chinese Academy of Sciences, Baidu

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 提出CoCoA预训练范式，通过协作注意力重构任务提升多模态嵌入质量。

📝 摘要： 本文针对基于MLLM的多模态嵌入模型，其因果注意力范式不利于生成全局紧凑表示的问题，提出了CoCoA预训练范式。CoCoA重构注意力流，并引入基于EOS标记的重构任务，迫使模型将输入语义信息压缩到<EOS>嵌入中，从而为后续的对比学习奠定基础。在MMEB-V1基准上的实验表明，基于Qwen2-VL等模型构建的CoCoA能显著提升嵌入质量。该方法为优化MLLM的嵌入表示提供了一种有效的新策略。