推荐算法日报 - 2025-12-25
2025-12-25
| 2025-12-25
Words 4773Read Time 12 min
type
status
date
slug
summary
tags
category
icon
password
priority

Section 1: 📊 Trend Analysis

  • 🔥 LLM深度赋能推荐范式:今日多篇论文聚焦于如何将LLM的核心能力(理解、推理、生成)深度融入推荐系统,而非仅作浅层特征提取。淘宝的ReaSeq从表征(显式推理)和样本(隐式推理)两个维度系统性打破“日志驱动”瓶颈;复旦的MMSRARec则探索了MLLM作为推荐器本体(LLM-as-Rec)的新范式,并引入检索增强(RAG)思想。这表明业界正从“LLM-for-Feature”向“LLM-for-Reasoning”和“LLM-as-Rec”演进,追求更深度的知识融合与范式创新。
  • 💡 偏差校正的几何与因果视角:对推荐系统偏差(尤其是流行度偏差)的校正研究呈现出更理论化和精细化的趋势。中科大的工作从BPR损失的优化动态出发,揭示了偏差产生的几何根源(嵌入沿“流行度方向”排列),并提出方向性分解的通用校正框架。另一篇论文则聚焦于因果推断中的IPS框架,对倾向性评分函数进行具体改良。两者都试图从更本质的层面(优化几何/因果假设)理解和解决偏差问题,为工业实践提供了新的理论工具。
  • 🛠️ 面向生产的效率与效果平衡:工业界论文在追求效果突破的同时,高度重视落地可行性。Mercari的工作系统性地对比了PCA与Matryoshka表示学习(MRL)两种嵌入压缩方案,最终以32维低维嵌入上线,在严格延迟约束下获得线上收益。这体现了工业级推荐/搜索系统在引入大模型等重技术时,对存储、计算、延迟进行端到端优化的典型工程实践。

Section 2: 📰 Daily Digest

1. ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling

🏷️ 来源: 🏭 工业界 | Alibaba, Taobao
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 淘宝提出融合显隐式LLM推理的排序框架,线上指标显著提升,是LLM深度赋能工业推荐系统的标杆之作。
📊 评分理由: 工业界(阿里巴巴/淘宝)。来自淘宝核心Ranking团队的深度实践,已全量部署于服务数亿用户的线上系统,带来IPV/CTR>6.0%、订单>2.9%、GMV>2.5%的显著线上收益。其核心价值在于范式层面的思考与系统性解法:不仅用LLM做特征增强(显式推理生成语义表示),更创新性地引入Diffusion LLM进行“日志外行为”生成(隐式推理),从表征和样本两个维度系统性地打破“日志驱动范式”的瓶颈(知识贫困与兴趣盲区)。方法设计完整、细节扎实,对业界如何深度(而非浅层)融合LLM知识于生产级推荐系统有极强的参考价值。5分。
📝 摘要: 针对工业推荐系统“日志驱动范式”的两大瓶颈——ID表征的“知识贫困”和对“日志外兴趣”的“系统性盲区”,淘宝提出ReaSeq框架。其核心是通过LLM的显式与隐式推理注入世界知识:1)显式推理:设计多Agent协作的Chain-of-Thought流程,从用户需求和商品属性双视角,为商品生成结构化、解耦的语义表示(Semantic Item Tokenization),以解决冷启动和稀疏性问题;2)隐式推理:采用Diffusion LLM,根据用户已观测行为上下文,生成合理的“日志外”行为序列,扩大排序模型的兴趣感知范围。该框架已全量部署于淘宝排序系统,线上取得IPV/CTR>6.0%、订单>2.9%、GMV>2.5%的显著提升。

2. Rethinking Popularity Bias in Collaborative Filtering via Analytical Vector Decomposition

🏷️ 来源: 🎓 学术界 | USTC, NUAA, iFLYTEK
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 理论驱动,揭示了BPR损失内在的几何偏差,并提出可即插即用的高效去偏框架。
📊 评分理由: 学术界主导(第一作者为中科大博士生)。论文深入分析了协同过滤(CF)中流行度偏差的几何根源,从BPR损失的优化动态出发,理论扎实、创新性强。提出轻量级通用框架DDC,通过方向分解纠正嵌入空间,离线实验效果显著(损失降至基线5%以下)。虽无线上验证,但其对偏差根本原因的理论洞察和高效矫正方法,对工业界改进CF模型有重要启发价值。4分。
📝 摘要: 论文从几何视角重新审视了协同过滤(CF)中的流行度偏差问题。作者通过理论分析证明,在BPR损失优化下,物品嵌入会系统性沿着一个与流行度强相关的“流行度方向”排列,导致用户嵌入被迫同时编码真实偏好和校准全局流行度,从而产生推荐偏差。为此,论文提出了方向分解与校正(DDC)框架,这是一个模型无关的微调方法:对于正样本对,沿个性化偏好方向更新;对于负样本对,则沿远离全局流行度方向更新,从而在几何源头解耦偏好与流行度。实验表明,DDC能显著降低训练损失(至基线5%以下),并在多个指标上超越现有去偏方法,有效提升推荐质量与公平性。

3. Towards Better Search with Domain-Aware Text Embeddings for C2C Marketplaces

🏷️ 来源: 🏭 工业界 | Mercari
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: Mercari线上验证的领域文本嵌入优化,实践性强,对电商语义召回有参考价值。
📊 评分理由: 工业界(Mercari)。工作聚焦于搜索召回阶段的文本表示优化,核心贡献是结合领域微调与Matryoshka表示学习,在严格的线上约束下获得显著收益(ARPU+0.92%)。方法上整合了对比学习、角色前缀和高效的嵌入压缩,虽非范式突破,但工程实践扎实,对电商搜索的语义召回有很强的参考价值。4分。
📝 摘要: 针对C2C电商平台(Mercari)搜索中短查询、噪声商品描述等挑战,本文提出构建领域感知的文本嵌入模型以提升语义召回质量。方法核心是:使用购买日志中的(查询,商品标题)正样本对,通过对比学习(MNR损失)和“Query:”、“Passage:”角色前缀进行领域微调。为满足线上延迟与存储约束,论文系统对比了PCA与Matryoshka表示学习(MRL)两种嵌入压缩方案,实验证明MRL在压缩至32维时性能损失远小于PCA。该方案已通过线上A/B测试,在保持交易频率的同时,显著提升了用户平均收入(ARPU)和搜索流程效率。

4. MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model

🏷️ 来源: 🎓 学术界 | Fudan University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 提出融合关键词摘要、协同检索和多任务微调的MLLM推荐新范式,高效且具解释性。
📊 评分理由: 学术界(复旦大学)。论文系统性地提出了一个MLLM用于多模态序列推荐的新框架,通过关键词摘要、协同信号检索和多任务微调,有效解决了现有MLLM推荐方法解释性差、成本高、忽略协同信号的痛点。方法设计新颖(特别是用RL优化摘要策略),实验在多个数据集上验证有效,对工业界落地MLLM推荐(尤其是平衡性能、解释性与效率)有较强的启发价值。虽无线上AB,但方法扎实且具备可落地潜力。4分。
📝 摘要: 为解决现有MLLM用于推荐时解释性差、推理成本高、忽略协同信号的问题,本文提出MMSRARec框架。其核心流程是:1)多模态摘要:利用MLLM将用户历史行为物品和待推荐物品的图文信息,摘要成一组浓缩的关键词,并通过强化学习优化摘要策略以平衡信息量与长度;2)检索增强:借鉴RAG思想,基于传统协同信号检索相似用户的行为,并将其也转化为关键词作为补充上下文;3)多任务微调:将上述处理后的序列输入MLLM进行监督微调,使其能直接预测下一个物品。该方法在多个数据集上验证有效,实现了性能、效率与解释性的较好平衡。

5. Accurate and Diverse Recommendations via Propensity-Weighted Linear Autoencoders

🏷️ 来源: 🎓 学术界 | Hokkaido University, The University of Tokyo, Nara Institute of Science and Technology
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 提出对数-sigmoid倾向性评分,在浅层线性自编码器上验证,更平衡地处理流行度偏差,提升多样性。
📊 评分理由: 学术界。作者来自日本高校,论文发表于SIGIR AP。核心工作是改进传统IPS(逆倾向性评分)框架中的倾向性评分估计函数,提出了一个新的对数-sigmoid形式的评分,旨在更平衡地处理流行度偏差,避免过度惩罚热门物品。方法在浅层线性自编码器(EASE)上进行了验证,离线实验显示能在保持或轻微提升准确性的同时显著提升推荐多样性。这是对已有去偏技术的一个具体、扎实的优化,但创新幅度有限,属于在现有成熟框架内的改良,缺乏工业级验证或范式突破。维持学术界论文锚定3分。
📝 摘要: 论文针对逆倾向性评分(IPS)去偏方法中,基于幂律的倾向性评分会过度惩罚热门物品的问题,提出了一种新的对数-sigmoid形式的倾向性评分函数。该函数在保持简单性的同时,允许更灵活地调整对流行度的校正强度,旨在不过度损害热门物品推荐效果的前提下,提升长尾物品的曝光与推荐列表的多样性。作者将改进的IPS应用于浅层线性自编码器(EASE)模型,离线实验结果表明,该方法能显著提升推荐多样性指标(如覆盖度),同时保持甚至轻微提升推荐准确性。

Section 3: 🔍 Deep Dive

ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling

🏷️ 来源: 🏭 工业界 | Alibaba, Taobao
💡 问题与动机
工业推荐系统长期依赖“日志驱动”范式,面临两大根本性瓶颈:1)知识贫困:基于ID的物品表征仅从交互共现中学习,缺乏对商品属性(如材质、颜色)和用户深层意图(如使用场景、风格)的语义理解,在数据稀疏时易导致表征崩塌。2)兴趣盲区:平台日志无法捕捉用户跨平台、离线或新兴的兴趣,模型对“日志外”兴趣存在系统性盲区,性能存在天花板。
🧠 核心贡献
  • 范式创新:提出从“日志驱动”向“世界知识增强推理”的范式转变,系统性利用LLM的推理能力打破上述两大瓶颈。
  • 双路径知识注入:设计了显式推理(多Agent Chain-of-Thought生成语义表征)与隐式推理(Diffusion LLM生成日志外行为)两条互补路径,分别从表征和样本维度注入知识。
  • 工业级落地验证:框架已在淘宝排序系统全量部署,服务数亿用户,并带来了IPV/CTR>6.0%、订单>2.9%、GMV>2.5%的显著线上收益,证明了其有效性。
🛠️ 核心方法
ReaSeq框架包含离线的“知识系统”构建和在线的“应用”两部分。离线阶段,通过多Agent显式推理为商品生成结构化语义表示(SID),并通过Diffusion LLM隐式推理生成用户可能的“日志外”行为序列。在线阶段,这些知识资产以两种模式增强现有排序模型:1)检索式建模:将生成的语义表示和日志外行为作为额外特征/序列,输入GSU-ESU架构;2)压缩式建模:将超长序列(含生成行为)与目标物品进行交互,提取兴趣向量。
  • 关键技术点1:多Agent显式推理:设计“用户需求”和“商品属性”两个Agent进行协作式Chain-of-Thought推理,从粗粒度到细粒度逐步提炼商品的结构化知识(如适用场景、风格、材质),最终生成解耦的语义Token(SID)。
  • 关键技术点2:Diffusion LLM隐式推理:设计生成式行为推理(GBR)模块。首先定位用户历史序列中可能缺失行为的“间隙”,然后使用训练好的Diffusion LLM,以观测到的行为为条件,逐步去噪生成合理的“日志外”行为ID序列,补全用户兴趣画像。
  • 关键技术点3:知识融合与对齐:生成的语义表示(SID)通过一个轻量级Tokenizer模型映射为嵌入,并与原始ID Embedding通过对比学习(InfoNCE Loss)进行对齐,确保外部知识能平滑融入现有表征体系。
🔍 关键细节(我关心能不能复现)
  • 训练数据构造:1)显式推理:使用商品内容(CPV)信息作为LLM的输入。2)隐式推理:使用平台用户真实行为序列训练Diffusion LLM,学习行为序列的分布。
  • 损失函数与训练策略:1)语义表征对齐:使用InfoNCE损失对齐SID嵌入与ID嵌入。2)Diffusion LLM训练:使用标准的扩散模型训练目标,学习在噪声条件下重建真实行为序列。
  • 推理流程与代价:1)显式推理(SID生成)与隐式推理(行为生成)均为离线异步执行,结果存入特征平台,不增加线上推理延迟。2)线上排序模型仅进行 embedding lookup 和序列建模,计算代价增量可控。
📈 实验效果
  • 数据/场景与指标:淘宝线上A/B实验,核心指标:IPV(商品详情页浏览量)、CTR、订单数、GMV。
  • 主要结果:全量部署后,IPV和CTR提升>6.0%,订单数提升>2.9%,GMV提升>2.5%。仅启用生成式行为推理(GBR)模块,也带来了IPV +2.40%,CTR +2.08%,订单 +4.09%,GMV +5.12%的提升。
  • 最关键的消融/对比:论文对比了仅使用ID、仅使用SID、以及SID+GBR等多种组合。结果证明,表征增强与行为生成二者互补,共同作用带来最大收益。这验证了从两个维度系统性打破日志瓶颈的必要性。
⚠️ 风险与边界
  • LLM幻觉与知识准确性:LLM生成的内容可能存在幻觉或与平台实际情况不符,需要设计严格的校验或后处理流程。
  • 生成行为的真实性评估:生成的“日志外”行为是否真正符合用户兴趣,缺乏直接的真实标签验证,更多依赖间接的业务指标提升来证明其价值。
  • 系统复杂性与维护成本:引入多Agent推理、Diffusion LLM等多个离线组件,增加了系统复杂度和运维成本,对工程架构能力要求高。
💼 工业启发
  • 保守应用:可以优先借鉴其显式推理路径,利用LLM为商品生成高质量、结构化的语义特征(SID),作为解决冷启动和丰富物品侧特征的强信号。
  • 中等应用:在拥有较丰富用户行为数据的场景,可以尝试小流量实验生成式行为推理,将其生成的行为作为“软”的、扩充的兴趣信号,与真实行为序列混合输入模型,观察对长尾推荐和探索性的影响。
  • 激进应用:对标淘宝,进行范式级重构,系统性规划如何利用LLM的推理与生成能力,从表征和样本两个源头改造现有的日志驱动系统,这可能带来显著的性能突破,但也伴随最高的技术风险和投入。

  • 推荐系统
  • 日报
  • 从RL比SFT更不容易遗忘到反观推荐系统缺陷推荐算法日报 - 2025-12-24
    Loading...