推荐算法日报 - 2026-06-18

type

Post

status

Published

date

Jun 18, 2026 05:00

slug

daily-report-2026-06-18

summary

大模型驱动的推荐系统范式升级：今日多篇论文聚焦于将大型语言模型（LLM）深度融入推荐系统，不再局限于特征工程，而是直接利用LLM进行用户行为序列建模、跨域知识迁移和冷启动物品理解。这表明业界正从“LLM辅助推荐”向“LLM原生推荐”演进，核心挑战在于如何平衡模型容量与推理效率。; 多模态与长序列建模的工程化突破：针对短视频、直播等富媒体场景，业界开始探索更高效的多模态特征融合与用户长期行为序列建模方案。例如，通过解耦注意力机制或记忆网络，在可控的计算成本下，将用户数月的交互历史纳入模型，以捕捉动

Section 1: 📊 Trend Analysis

🔥 大模型驱动的推荐系统范式升级：今日多篇论文聚焦于将大型语言模型（LLM）深度融入推荐系统，不再局限于特征工程，而是直接利用LLM进行用户行为序列建模、跨域知识迁移和冷启动物品理解。这表明业界正从“LLM辅助推荐”向“LLM原生推荐”演进，核心挑战在于如何平衡模型容量与推理效率。

💡 多模态与长序列建模的工程化突破：针对短视频、直播等富媒体场景，业界开始探索更高效的多模态特征融合与用户长期行为序列建模方案。例如，通过解耦注意力机制或记忆网络，在可控的计算成本下，将用户数月的交互历史纳入模型，以捕捉动态兴趣漂移，这直接关系到推荐系统的个性化上限。

Section 2: 📋 今日速览

Google 在YouTube推荐中提出LLM驱动的用户行为理解框架，利用大模型对用户观看历史进行语义摘要，替代传统ID特征。离线AUC提升3.2%，线上长视频CTR+1.5%，已在小流量实验中验证。↗

快手针对直播推荐冷启动，提出多模态物品表征学习方案，融合视频、音频和弹幕文本特征。新主播曝光率提升22%，直播间进入率+12%，已全量部署于主站推荐流。↗

阿里巴巴 在电商搜索场景提出长序列用户行为建模方法，通过记忆网络压缩用户90天内的点击序列。离线召回率提升4.1%，线上GMV+0.8%，已应用于手淘搜索推荐。↗

Meta 提出面向社交推荐的图神经网络优化方案，通过邻居采样策略和对比学习增强用户-物品交互图。在Facebook Feed推荐中，用户互动率（点赞/评论）提升3.5%，模型训练时间减少40%。↗

清华大学 & 字节跳动 联合提出跨域推荐预训练模型，利用对比学习对齐新闻和短视频的用户兴趣。在今日头条场景，跨域冷启动物品曝光率提升28%，用户留存+1.2%。↗

Section 3: 📰 Daily Digest

1. LLM-Driven User Behavior Understanding for YouTube Recommendations

🔗 原文： https://example.com/paper1

🏷️ 来源： 🏭 工业界 | Google, YouTube

⭐ 评分： ⭐⭐⭐⭐⭐ (5/5)

🎯 推荐理由： 这是大模型与推荐系统结合的标杆性工业实践。它没有停留在用LLM做特征，而是直接用它来理解用户的“意图”和“偏好”，为下一代推荐系统的架构提供了极具价值的参考。强烈建议所有关注LLM+推荐方向的工程师深读。

📝 摘要： 本文针对YouTube推荐中用户行为序列建模的语义鸿沟问题，提出利用大语言模型（LLM）对用户观看历史进行结构化摘要，生成用户兴趣画像。核心创新在于设计了一个轻量级的“摘要-检索”框架，将LLM生成的语义向量与传统的协同过滤信号进行融合，有效缓解了长尾物品的冷启动问题。在YouTube大规模A/B测试中，该方案在长视频推荐场景下CTR提升1.5%，用户观看时长提升0.9%。该工作为工业界如何高效、可控地利用LLM提升推荐系统天花板提供了重要范本，其“摘要-检索”的解耦设计也极具工程借鉴价值。

2. Multi-Modal Item Representation for Live Streaming Cold Start

🔗 原文： https://example.com/paper2

🏷️ 来源： 🏭 工业界 | 快手

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 聚焦于直播推荐中最棘手的冷启动问题，方案务实且效果显著。多模态融合的思路在工业界非常通用，其“解耦-融合”的架构设计清晰，易于复现和迁移到其他富媒体场景。

📝 摘要： 本文针对直播推荐中新主播冷启动困难的问题，提出了一种多模态物品表征学习模型。该方法将直播间的视频、音频、弹幕文本等异构信息通过独立的编码器进行特征提取，再通过一个跨模态注意力融合模块生成统一的物品表征。该表征直接用于召回和排序阶段，有效解决了新主播因缺乏用户交互数据而无法被推荐的问题。在快手主站线上实验中，新主播曝光率提升22%，直播间进入率提升12%，且模型推理延迟仅增加5%，具备良好的工业落地性。

3. Long-term User Behavior Modeling with Memory Networks for E-commerce Search

🔗 原文： https://example.com/paper3

🏷️ 来源： 🏭 工业界 | 阿里巴巴

⭐ 评分： ⭐⭐⭐⭐ (4/5)

🎯 推荐理由： 长序列建模是工业推荐系统的核心痛点之一。本文提出的基于记忆网络的方案，在效果和效率之间取得了很好的平衡，相比Transformer类方法更具工程优势，对处理海量用户行为数据的团队有直接参考价值。

📝 摘要： 本文针对电商搜索推荐中用户行为序列过长（超过90天）导致模型难以有效建模的问题，提出了一种基于记忆网络的长序列压缩方案。核心思想是利用一个可学习的记忆矩阵，将用户长期行为中的关键模式进行编码和存储，替代传统的直接拼接或截断操作。在检索阶段，模型通过注意力机制从记忆矩阵中动态提取与当前查询相关的历史兴趣。在阿里巴巴手淘搜索推荐场景，该方案在召回阶段HitRate提升4.1%，排序阶段GMV提升0.8%，同时模型参数量和推理时间相比使用Transformer的方案减少了60%。

4. Graph Neural Networks with Optimized Sampling for Social Recommendations

🔗 原文： https://example.com/paper4

🏷️ 来源： 🏭 工业界 | Meta

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 针对社交推荐场景的图神经网络优化，虽然创新点相对常规，但实验扎实，效果显著。对于正在构建或优化社交推荐图模型的团队，其邻居采样和对比学习的实践细节有很好的借鉴意义。

📝 摘要： 本文针对Facebook Feed中社交关系图规模巨大导致GNN训练和推理效率低下的问题，提出了一种优化的邻居采样策略和对比学习训练框架。该方法通过基于影响力的重要性采样，优先选择对用户决策影响更大的邻居节点，减少了计算冗余。同时，引入用户-物品交互图和社交关系图的跨视图对比学习，增强了节点表征的鲁棒性。在Meta内部数据集和线上A/B测试中，用户互动率（点赞、评论、分享）提升3.5%，模型训练时间缩短40%，推理速度提升25%。

5. Cross-Domain Pre-training for News and Short-Video Recommendation

🔗 原文： https://example.com/paper5

🏷️ 来源： 🤝 产学合作 | 清华大学, 字节跳动

⭐ 评分： ⭐⭐⭐ (3/5)

🎯 推荐理由： 跨域推荐是解决冷启动和数据稀疏问题的有效手段。本文提出的预训练框架思路清晰，且实验验证了跨域迁移的有效性。对于拥有多个内容形态的推荐平台，该方案有很好的应用前景。

📝 摘要： 本文针对新闻和短视频两种不同内容形态的推荐场景，提出了一种基于对比学习的跨域预训练模型。核心思路是构建一个统一的用户兴趣编码器，通过对比学习拉近同一用户在新闻域和短视频域的兴趣表征，同时推远不同用户的表征。预训练后的模型可以迁移到任一目标域进行微调，有效缓解了目标域数据稀疏和冷启动问题。在字节跳动今日头条场景的跨域冷启动测试中，新发布视频的曝光率提升28%，用户次日留存率提升1.2%。该工作为多模态、多场景的推荐系统提供了统一的预训练范式。

🎯 今日主题：RAG自适应检索数量如何动态确定

引子

工业级检索增强生成（RAG）系统普遍采用固定 Top-K 截断，但查询复杂度差异巨大：简单问题只需 2-3 个段落，组合性问题可能需要 10+ 个。固定 K 导致窄查询过检索（token 浪费、引入噪声），宽查询欠检索（遗漏关键证据）。近期的多篇工作从不同角度切入自适应检索数量：ScoreGate 利用双编码器与交叉编码器分数融合决策 [HighLevel]，Tail-Aware 结合极值理论与几何曲线检测噪声边界 [37 Interactive Entertainment]，TASR 在迭代检索中通过 logit margin 和答案稳定性实现免训练停止 [San Diego State]。本文比较这三种方案的阈值策略、效果与计算开销。

ScoreGate：双分数统计融合

ScoreGate 轻量地插入现有两阶段 RAG 管道，无需额外训练或推理调用。它的核心洞察是：bi-encoder 相似度 s_i 和 cross-encoder 重排序分数 r_i 携带互补信号 [HighLevel]。例如，因词汇不匹配导致 bi-encoder 低分但语义相关的段落，cross-encoder 往往能正确识别，单分数阈值无法恢复这类样本 [HighLevel]。

ScoreGate 将 (s_i, r_i) 分数空间划分为四个区域，结合统计分布自适应决定每个查询的保留 chunk 数。对于两个分数都高（同意区域）的 chunk 直接保留；对低分区域直接丢弃；对分歧区域则通过统计融合决定 [HighLevel]。该方法仅增加约 31ms 延迟，在 MS MARCO 200 查询上以 35% 更少的 chunk 实现 MRR@10=0.401 [HighLevel]。在内部生产流量上，97.77%-99.34% 召回率下零误报（95%CI [96.4%,100%]），每个查询 token 数减少 34.8% [HighLevel]。

与固定 Top-K 相比，ScoreGate 能动态适应查询复杂度：简单查询只输出少数高置信度 chunk，复杂查询保留更多。它的优势是零额外模型调用、直接利用现有分数。不足是依赖 cross-encoder 的质量，且阈值设定依赖经验与数据分布。

Tail-Aware：极值理论与膝点检测

Tail-Aware（TAAk）从统计视角出发：排名相似度分数的尾部行为揭示了从“相关主导”到“噪声主导”的转折点 [37 Interactive Entertainment]。标准极值理论（EVT）建模全局尾部，但计算复杂度 O(N²M) 且小样本下不稳定 [37 Interactive Entertainment]。

TAAk 采用“粗到细”策略：首先利用排名相似度曲线的几何结构——典型的“陡-平-陡”模式——通过膝点检测定位一个紧凑候选区域，然后在该窗口内应用 EVT 进行拟合优度检验，验证尾部起始点 [37 Interactive Entertainment]。这使计算复杂度降至 O(√N log N · M)，同时保持统计严谨性。在近似单调似然比假设下，TAAk 能给出稳定的、查询自适应的截断点，对应最早出现的噪声主导区域 [37 Interactive Entertainment]。

TAAk 与 ScoreGate 不同：它不需要 cross-encoder 分数，只在 bi-encoder 相似度上操作，因此可应用于只有单阶段检索的场景。但它依赖相似度曲线形状，对高噪音或平坦分布可能不敏感。TAAk 是训练无关的，膝点检测和 EVT 检验均为一次性计算。

TASR：迭代检索中的免训练停止规则

TASR（Training-Free Adaptive Stopping for Iterative Retrieval）专为迭代 RAG 设计。在迭代检索中，模型每次检索新段落时可能已收敛到最终答案，继续检索会浪费调用。TASR 利用迭代过程中已经缓存的信息：答案稳定性（连续几轮答案是否变化）、校准的 logit margin（模型对当前答案的置信度）、词汇重叠（新段落带来的信息增益）与言语化置信度 [San Diego State]。

核心停止谓词 AS_m25 通过每轮 isotonic 校准将 logit margin 映射到概率，当满足稳定性条件（如连续 2 轮答案相同且 logit margin 超过阈值）时提前终止 [San Diego State]。实验表明，TASR 在多个多跳问答数据集上以显著更少的检索轮数（如减少 30-50% 的检索调用）达到或超越固定轮数基线 [San Diego State]。其优势是完全免训练，即插即用。

TASR 的局限：它只适用于迭代式 RAG 流程，无法直接用于单次检索；答案稳定性标准要求生成模型具有合理的稳定性，对弱模型可能失效。

工业落地启示

单次检索场景 优先考虑 ScoreGate 或 Tail-Aware。若已有双编码器+交叉编码器管道，ScoreGate 能以极低延迟实现 35% 的 token 节省；若仅有双编码器，Tail-Aware 的膝点检测是更轻量的选择。

迭代检索场景 TASR 是成本最优方案，可将检索调用次数减半而不损伤准确度。但需监控停止太早的风险，建议设置最小轮数保底。

混合方案 实践中可将 ScoreGate 作为单次检索的截断，若需要多跳推理再叠加 TASR 控制迭代深度。Retriever Portfolios [Google] 则从模型选型角度提供互补，适合超大规模系统。

推荐系统中的应用 RAG在推荐中用于用户历史检索（如Memento [Meta]），动态检索数量可降低推理成本并提升效果。