type
Post
status
Published
date
Jun 13, 2026 07:03
slug
rec-weekly-2026-W24
summary
本周推荐系统研究围绕三条技术主线展开:生成式推荐从架构完备走向工业级工程落地,其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克;LLM增强的推荐从离线推理迈向在线实时,谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理;召回排序系统的成本与效率优化出现系统性方案,小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储,同时CTR模型的残差路径设计开始突破缩放定律瓶颈。 主线1(生成式检索工程化): 快手推出的OneRetrieval首次实现了可编辑的生成式检索,在替换倒排索引分支后显著提升订单量与CTR;Yandex的Gryphon引入联合训练的物品级评分组件,替换超过15个候选生成器与粗排阶段,召回量Recall@1000提升3.7%;京东的AdaGRPO通过自适应门控GRPO损失,将HR@10从11.01%提升至12.18%;Meta的Beyond Item IDs提出Global-Aware Compression Transformer,将峰值内存降低一个数量级;阿里的SSRLive通过动态语义ID融入用户-主播交互信号,线上观看时长+3.38%。 主线2(LLM推荐实时化): 谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成,结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值;快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速,GMV+3.446%;DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征,在零售品类上CTR+2.1%;OPPO的ToolRec为小布助手(1.5亿月活)构建了双层级点击校准机制,CTR显著提升。 主线3(召回排序系统效率优化): 小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群,硬件成本节省90%;DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%,且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans(2倍计算节省);Meta的DUET将用户行为分离为点击与转化两个流,分别用专用Transformer预训练,离线NE降低0.38%;eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号,冷启动Recall+5.2%。
tags
推荐系统
周报
论文
category
推荐技术报告
icon
📚
password
priority
1
本周概览
本周推荐系统研究围绕三条技术主线展开:生成式推荐从架构完备走向工业级工程落地,其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克;LLM增强的推荐从离线推理迈向在线实时,谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理;召回排序系统的成本与效率优化出现系统性方案,小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储,同时CTR模型的残差路径设计开始突破缩放定律瓶颈。
主线1(生成式检索工程化): 快手推出的OneRetrieval首次实现了可编辑的生成式检索,在替换倒排索引分支后显著提升订单量与CTR;Yandex的Gryphon引入联合训练的物品级评分组件,替换超过15个候选生成器与粗排阶段,召回量Recall@1000提升3.7%;京东的AdaGRPO通过自适应门控GRPO损失,将HR@10从11.01%提升至12.18%;Meta的Beyond Item IDs提出Global-Aware Compression Transformer,将峰值内存降低一个数量级;阿里的SSRLive通过动态语义ID融入用户-主播交互信号,线上观看时长+3.38%。
主线2(LLM推荐实时化): 谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成,结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值;快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速,GMV+3.446%;DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征,在零售品类上CTR+2.1%;OPPO的ToolRec为小布助手(1.5亿月活)构建了双层级点击校准机制,CTR显著提升。
主线3(召回排序系统效率优化): 小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群,硬件成本节省90%;DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%,且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans(2倍计算节省);Meta的DUET将用户行为分离为点击与转化两个流,分别用专用Transformer预训练,离线NE降低0.38%;eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号,冷启动Recall+5.2%。
生成式检索与语义ID
生成式推荐本周以工业级工程突破为核心看点。从语义ID的静态分配问题(冷启动、编辑性)、序列似然与物品相关性的目标偏离,到长序列编码的计算瓶颈,三个方向均出现了可部署的系统级解决方案。
OneRetrieval(Kuaishou)——首个可编辑的生成式检索框架。电商搜索面临多路召回融合效率问题,生成式检索理论上可以单模型替代,但倒排索引保留了一个关键能力:运营团队可以在数小时内注入新term而无须模型更新。OneRetrieval提出了Keyword-Aligned Encoding (KAE),将每个标识符位置绑定到一个可解释的属性词上,保留倒排索引式的编辑性:码本中预留的槽位可以在部署后绑定新词而不需重新训练。在500万真实请求的离线评估中,OneRetrieval匹配了最强生成式基线的Recall效果,干预命中率比封闭码本方法高出一个数量级。线上替换倒排索引分支后显著提升了订单量与CTR。这一工作实际上延续了DSI、NCI等生成式检索路线的语义ID设计思路,但首次将运营侧的可编辑性作为系统约束纳入了编码设计。
Beyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling(Meta)——提出以深度截断的粗粒度Semantic IDs替代传统Video IDs,嵌入表大小不再依赖语料库基数,而是取决于语义聚类的粒度。这个压缩表示通过共享语义前缀自然支持冷启动物品——与DAS(快手广告场景中双对齐的语义ID)的处理思路一致。为了突破序列长度瓶颈,引入了Global-Aware Compression Transformer:通过非参数时间折叠将长序列压缩为更紧凑的表征,再通过统一全局查询整合压缩后的信息。离线剖析显示峰值内存降低一个数量级,计算开销大幅减少。线上A/B测试中满意用户参与度和满意内容消费均有显著提升。相比HiGR的层次化规划与残差量化SID,Beyond Item IDs走了粗粒度语义ID的简约路线——用低精度的语义前缀换取了冷启动泛化性和计算效率。
Gryphon(Yandex)——诊断出生成式检索的核心目标偏离:解码器的beam search优化的是token序列似然,而不是物品的相关性。当多个物品碰撞到同一个SID时,序列似然无法区分它们。Gryphon在编码器-解码器架构中增加了联合训练的物品级评分组件:用户表征一次编码后,不仅用于解码SID,还直接对生成的SID映射回的具体物品重新评分。在工业音乐服务上,物品级评分的Recall@1000比纯beam-likelihood排名高4.2%,比vanilla GR高3.7%。线上7天A/B测试中,Gryphon作为唯一候选源替换了超过15个候选生成器与粗排阶段,总收听时长变化+0.25%(无统计显著差异),但系统复杂度大幅简化。物品级评分的设计与TIGER/CIDER的纯自回归生成形成了本质区别。
AdaGRPO(JD.com)——直面生成式推荐中RL训练的噪声问题。生产级排序器作为奖励模型,在曝光偏置日志上训练,导致对部分策略输出提供的奖励信号不可靠。作者通过分层分析发现:奖励指引在策略不确定且排序器能有效区分正负样本时最有益;在其他样本上奖励信号可有可无甚至有害。AdaGRPO据此引入每样本门控:训练由监督负对数似然锚定,GRPO目标通过两个诊断指标(策略侧难度、奖励可区分性)决定是否参与当前样本的优化。在京东电商数据集上,最佳中间checkpoint的HR@10从11.01%提升至12.18%,幻觉率低于0.22%。线上A/B测试CTR和停留时间统计显著提升。这个"选择性准入"的思路与RelayGR中跨阶段接力推理的自适应策略是互补的。
SSRLive(Alibaba)——直播推荐中内容快速变化,静态SID无法及时反映房间内动态。SSRLive提出了动态语义ID机制:生成式模块采用编码器-解码器同时产出静态和动态SID,动态部分融合多模态信息(视频、音频、弹幕)实时编码房间状态;判别式模块再将SID与用户特征结合,融入用户-主播交互信号(点赞、下单等),进行多任务预测。线上A/B测试:观看时长+3.38%,GMV+0.72%,关注增长+3.12%,互动量+2.92%。该工作将TIGER的静态SID设计扩展到了时间敏感场景,同时融合了判别式推荐的优势。
- Takeaway: 生成式检索的工程化门槛正在降低。OneRetrieval证明了可编辑性的必要性,Gryphon证明了物品级评分对召回质量的提升,AdaGRPO证明了RL训练可以安全地小范围应用。下周关注OneRetrieval的在线订单量变化绝对值,以及Gryphon在更广泛场景(电商而非音乐)的部署情况。
- Takeaway: 语义ID的设计正在分化:有面向冷启动的粗粒度语义ID(Meta),有面向编辑性的属性词绑定(快手),有面向动态直播的dual SID(阿里)。不同场景对ID赋予了不同的系统约束,统一的ID设计范式尚未形成。
LLM增强的推荐与用户建模
LLM增强推荐的实用化路径本周出现了两个并行趋势:一是将LLM推理从在线切换到离线,通过知识蒸馏或检索组合实现实时推理;二是直接在线路推理,但通过架构优化将开销控制在可接受范围。
LLM-Based User Personas for Recommendations at Scale(Google)——在YouTube的十亿用户视频推荐平台上,直接在线生成自然语言用户兴趣画像。核心挑战是LLM在线推理的延迟与成本。设计了三层次优化:知识蒸馏将大模型的能力压缩到小模型;异步推理将生成过程离线或非实时完成;输入优化通过语义聚类的视频表示减少输入长度。生成的画像同时包含已有兴趣的总结和新颖话题(探索-利用平衡),并在线上A/B测试中显著提升了用户价值。这一框架与EviSnap中通过LLM提炼facet cards进行跨域推荐的做法类似,但EviSnap聚焦冷启动解释,而Google框架着眼于大规模在线场景的利益建模。
AIR: Atomic Intent Reasoning(Kuaishou)——将LLM语义推理迁移到跨域推荐(内容→电商)。AIR的关键洞察是:将LLM推理产生的原子意图(如"喜欢户外运动"、"对客单价敏感")离线生成并存储,在线通过高效检索和组合实时构建用户意图表征,避免了在线LLM的推理延迟。实验显示400倍推理加速。在快手电商A/B测试中GMV提升3.446%。与DCNv2等工业基线相比,采用语义原子意图替代纯粹ID特征带来了显著的转化提升。这个范式与HyMiRec中粗粒度兴趣嵌入+细粒度意图的组合思路有相通之处。
Mind the Gap: Bridging Behavioral Silos with LLMs in Multi-Vertical Recommendations(DoorDash)——面向多场景冷启动:新品类(grocery、retail)缺乏用户行为数据。方案是用分层RAG管道从用户餐厅订单历史与搜索查询中提取多级分类特征(如"偏好健康餐"、"家庭采购"),然后将这些LLM生成的特征注入生产中的多任务学习排序模型。在DoorDash的实际部署中,grocery品类CTR+1.5%,retail品类CTR+2.1%,整体收入+0.8%。相比纯粹的内容特征或ID特征,LLM生成的语义特征在数据稀疏品类上展现了跨领域迁移价值。
ToolRec(OPPO)——设备端智能助手的查询推荐场景。核心问题是用点击日志直接对齐LLM会产生严重噪音(用户活跃度差异、工具调用查询被低频点击淹没)。ToolRec构建了SysToolKit(708个系统工具)并结合上下文感知工具检索机制。双层级校准机制:先按用户活跃度校准信号权值,再提升系统工具调用类查询的点击信号权重。最后使用加权KTO对齐模型。在OPPO小布助手(1.5亿月活)的线上A/B测试中,CTR与总点击量均显著提升。
DeMix: Debugging Training Data with Mixed Data Error Types by Investigating Influence Vectors(ByteDance)——数据质量诊断的新方法。将训练数据中的错误类型(标签错误、特征错误、虚假关联)建模为多标签分类问题,通过影响向量(每个训练样本对所有验证样本预测的影响)捕捉不同错误类型的行为模式。引入干预学习策略使分类器学习每种错误类型的恒定解释。在11个任务(包括推荐、LLM alignment)上,数据调试F1平均提升22.61%,数据修复后任务模型性能提升9.32%。
- Takeaway: 离线意图生成+在线检索的组合(AIR、DoorDash RAG)正在成为LLM增强推荐的主流部署范式。关键指标是意图的粒度与检索的组合效率。下阶段关注AIR意图原子化程度(是否可与用户长期兴趣码本结合)以及DoorDash方案向更多品类的扩展效果。
- Takeaway: 在线LLM推理并非不可能(Google),但需要极强的工程优化(蒸馏+异步+输入压缩)。计算成本与收益的trade-off值得持续追踪。
召回与排序系统优化
本周的召回排序文献集中在两个方向:一是向量检索的硬件成本与推理效率,二是CTR模型架构的精细优化。
Helmsman: Building Cost-Effective and High-Performance ANNS at Scale with Clustering-Based Approach(Xiaohongshu)——RedNote(小红书)的HNSW内存索引索引不断膨胀:35000核+0.35PB DRAM。尝试聚类ANNS(IVF等)部署于SSD,但面临内核I/O栈开销、固定剪枝策略、索引构建慢三方面问题。Helmsman的解决方案:ANNS导向的用户态存储栈(绕过内核I/O路径)、leveling-learned剪枝(根据数据分布动态调整剪枝阈值)、GPU加速索引构建管道。上线后稳定运行数月,40台机器替代了原需35000核的集群,硬件成本节省90%。相比DiskANN和SPANN等SSD索引方案,Helmsman的专用用户态存储栈与自适应的剪枝策略带来了更优的延迟-召回平衡。
DeRes: Decoupling Residual Stability and Adaptivity for Scalable CTR Prediction(Deployed)——诊断CTR模型中残差连接的三个问题:Early信号被逐层稀释、恒等跳接无法遗忘过时兴趣、每层只看到前一层输出。受Dual Path Networks和HORNN启发,DeRes将残差拆为两条并行路径:一条Identity恒等路径(保留特征复用和梯度流),一条Block Attention Residual路径(对所有之前层的压缩输出做注意力)。向量级门控决定每条路径的每个维度的权重。进一步提出Pointwise AttnRes——用SiLU替代Softmax,允许多个过去层同时激活,闲置层获得负权重(遗忘),更符合多兴趣并行模式。在331M交互的工业数据集上AUC+0.32%,且在Criteo和Avazu上超越12个基线。关键是DeRes的计算-AUC缩放定律显示8层DeRes匹配16层OneTrans——相当于2倍计算节省。这个工作延续了AttnRes的思路但保留了恒等跳接,更适配CTR场景。
DUET: Dual User Embedding Transformers for Offsite Conversion Prediction(Meta)——离线转化率预测中点击与转化信号的统计特性差异大(点击密集短时、转化稀疏延迟)。DUET显式分离用户行为为两个流:对点击流使用多层自注意力Transformer,对转化流使用交叉-自注意力交织结构(因为转化样本少,需要更多外部查询信息)。两个编码器预训练后生成互补的嵌入,输入下游排序器。离线NE降低0.38%,线上A/B测试OCVR预测准确率一致提升。
Representation Curriculum: Stagewise Training for Robust Ranking and Allocation(eBay)——曝光依赖信号(CTR聚合、流行度估计)在训练中成为"学习捷径",导致冷启动物品受压制。Representation Curriculum引入分阶段训练:第一阶段只使用内容特征(曝光无关),第二阶段再引入曝光依赖特征,同时锚定第一阶段学到的内容表示路径。在eBay搜索线上实验中,冷启动Recall+5.2%,头部指标仅下降0.3%。
- Takeaway: SSD索引替代DRAM索引(Helmsman)可能改变大规模召回系统的硬件采购策略。观察60天稳定运行的延迟分布和索引重建频率。如果普及,可能推动推荐系统集群的存算分离。
- Takeaway: DeRes的残差双路径设计可能成为CTR模型的通用backbone改进。后续关注其在更大规模(十亿级样本)和实时训练中的竞品比较。
值得关注的方向
1. 生成式检索的在线部署成熟度
本周5篇生成式检索工业部署论文(OneRetrieval、Gryphon、AdaGRPO、Beyond Item IDs、SSRLive)覆盖了搜索、短视频、直播、音乐四个场景。其中两篇(OneRetrieval、Gryphon)直接替换或简化了传统多路召回/粗排阶段,且线上指标无统计显著下降或有所提升。这标志着生成式推荐第一次具备了与传统工业架构正面竞争的能力。后续观察指标包括:部署后系统的运维成本(索引重建频率、编辑操作的复杂性)、长尾商品/内容的召回覆盖率、以及推理延迟的P99分布。
2. 聚类ANNS的SSD化部署
Helmsman在40台SSD服务器上替代了35000核集群,节省90%硬件成本。这个数字具有很强的工程吸引力。但SSD索引在写入带宽、多并发下的延迟稳定性上仍有隐患。需要关注RedNote后续的长期运行报告:冷数据与热数据的迁移策略、索引分段(SSTables)的合并频率、以及向量更新对检索质量的影响。如果类似方案在更多公司(B站、抖音、Pinterest)落地,可能会催生专门的向量数据库SSD产品。
3. 数据质量诊断的工具化
DeMix展示了影响向量在多标签错误类型诊断上的可行性,且已在字节跳动部署。数据调试在推荐系统的日常运营中是一个高频痛点(标签系统升级、特征管道出错)。但影响向量的计算开销是O(N*M)(N训练样本*M验证样本),即使DeMix通过干预学习降低了复杂度,大规模(亿级样本)全量扫描仍不现实。后续关注方向:采样策略的选择、增量更新的可行性、以及是否能在Flink等实时流上实现在线监控。
本周论文速览
生成式检索与语义ID
OneRetrieval(Kuaishou)— 首个可编辑生成式检索框架,通过Keyword-Aligned Encoding保留实时编辑能力;替换倒排索引分支后显著提升订单量与CTR。
Beyond Item IDs(Meta)— 提出粗粒度Semantic IDs与Global-Aware Compression Transformer,峰值内存降低一个数量级,支持更长序列,线上满意用户参与度显著提升。
Gryphon(Yandex)— 在生成式编码器-解码器中增加联合训练的物品级评分组件,Recall@1000+3.7%;成功替换15+候选生成器与粗排阶段。
AdaGRPO(JD.com)— 自适应门控GRPO,仅在策略不确定且奖励可区分时应用RL;HR@10从11.01%升至12.18%,线上CTR与停留时间显著提升。
SSRLive(Alibaba)— 动态语义ID融合多模态信息与用户-主播交互;线上观看时长+3.38%,GMV+0.72%。
PRO: Prefix Retention Optimization — 提出前缀保留优化框架,包含前缀排序蒸馏、词汇调度、几何分数融合,在9个多模态检索任务上平均Recall@1+2.3%。
TRACER: Token ReAssignment for Concept Erasure — 生成式推荐中的概念遗忘框架,通过Token重分配与一致性正则化实现遗忘与推荐效用平衡。
GBLA: Gated Bidirectional Linear Attention(Yandex)— 线性时间双向注意力层,在Yandex Music上单层加速8.2倍(序列长度32768),质量与双向自注意力匹配。
DREAM: Dynamic Refinement of Early Assignment Mappings — 三阶段动态SID分配解决冷启动瓶颈,在Amazon数据集上显著优于SOTA。
CaLIR: Category-guided Latent Intent Reasoning(Meituan)— 类别引导的隐式意图推理框架,结合动态前缀trie约束解码,电商检索Recall@10提升3-5%。
LLM增强的推荐与用户建模
LLM-Based User Personas(Google)— 十亿用户规模的实时自然语言用户画像生成,结合知识蒸馏与异步推理,线上用户价值显著提升。
AIR(Kuaishou)— 原子意图推理框架,离线LLM生成+在线检索组合实现400倍加速,GMV+3.446%。
Mind the Gap(DoorDash)— 分层RAG从餐厅订单生成多级分类特征,grocery CTR+1.5%,retail CTR+2.1%,总收入+0.8%。
ToolRec(OPPO)— 双层级点击校准+加权KTO对齐,在1.5亿月活的小布助手上CTR与点击量显著提升。
DeMix(ByteDance)— 影响向量驱动多标签数据错误诊断,数据调试F1+22.61%,修复后模型性能+9.32%。
CFALR — 首个LLM架构用于个性化服装搭配推荐,CF增强生成,Polyvore上HitRate@10+12.3%。
CompRank — Token压缩+解码无关注意力评分,保留10.2%文档token,NDCG@10 39.2(全token 39.7),端到端4.9-9.5倍加速。
TAA-k — 局部化EVT+膝点检测的自适应k选择,复杂度从O(N²M)降至O(√NlogN * M),F1接近oracle(2-3%差距)。
STORM — 检索奖励引导beam search实现token级监督,8B模型匹配更大专有重写器,零样本迁移18种语言。
Mult-DPO(Netflix)— 将DPO从pairwise扩展到set-wise偏好,多项式似然闭式解,证明是边际化Plackett-Luce DPO的可处理上界。
Routing Plateau — 揭示21种路由方法精度收敛于窄区间,归因于可预测性瓶颈,提出突破路径(更大训练集、端到端微调)。
召回与排序系统优化
Helmsman(Xiaohongshu)— 用户态存储栈+leveling-learned剪枝+GPU加速构建,40台SSD服务器替代35000核集群,硬件成本节省90%。
DeRes(Deployed)— 双路径残差架构+Pointwise AttnRes(SiLU替代Softmax),工业331M交互数据集AUC+0.32%,8层匹配16层OneTrans(2倍计算节省)。
DUET(Meta)— 点击与转化流分离预训练,多层自注意力/交叉-自注意力分别适配,NE-0.38%,线上OCVR预测一致提升。
Representation Curriculum(eBay)— 分阶段训练:先内容特征后曝光特征,冷启动Recall+5.2%,头部仅-0.3%。
DiffCold — 扩散模型+检索增强聚合器+仿真表征对齐,解决冷启 seesaw dilemma,Yelp等3个数据集全面超越SOTA。
What Limits Does Quantization Place on Dense Top-k Retrieval? — 理论证明B-bit量化下完美top-k检索需要Bd=Ω(k ln N),精度阈值B*=O(ln ln N)以下无任何维度可行。
SinkRec(Kuaishou)— 残差向量量化外部记忆+TDGD缓解语义状态沉没,工业数据集上序列长度达10⁴时效率显著。