推荐周报 2026-W23 | Recsys Frontier

type

Post

status

Published

date

Jun 6, 2026 07:03

slug

rec-weekly-2026-W23

summary

本周推荐系统研究围绕三条技术主线展开。主线1：生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一（线上engagement +1%，延迟-11.1%），跳出了生成式推荐仅做检索的边界。快手的OneReason（线上部署）则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失，并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是：生成式推荐的核心瓶颈已从模型架构转移至数据形态（语义ID）与系统协同。主线2：跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。快手的RGCD-Rep（服务4亿+用户）用MLLM推理蒸馏将短视频用户兴趣迁移至直播，冷启动参与度显著提升。Meta的Quantizing Intent论文（线上AUC +1.522%冷启）则将有机feed行为量化为语义ID注入广告排序，证明行为富集度决定跨域迁移质量。两篇的共同发现是：跨域迁移的关键不在对齐特征，而在构建可迁移的语义表征。主线3：LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。理想汽车的HPRO（132天A/B，销量+9.5%）将偏好优化引入销售线索评分，解决稀疏监督和漏斗层级问题。快手的Taiji（CTR +12.4%，收入+15.2%）提出帕累托最优策略优化，在语义与ID之间找到最优权衡点。Syft的DynaTree（生存率提升1.5倍）则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明，LLM在推荐中的应用正从“通用方案”走向“场景定制”。

本周概览

本周推荐系统研究围绕三条技术主线展开。

主线1：生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一（线上engagement +1%，延迟-11.1%），跳出了生成式推荐仅做检索的边界。快手的OneReason（线上部署）则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失，并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是：生成式推荐的核心瓶颈已从模型架构转移至数据形态（语义ID）与系统协同。

主线2：跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep（服务4亿+用户）用MLLM推理蒸馏将短视频用户兴趣迁移至直播，冷启动参与度显著提升。Meta的Quantizing Intent论文（线上AUC +1.522%冷启）则将有机feed行为量化为语义ID注入广告排序，证明行为富集度决定跨域迁移质量。两篇的共同发现是：跨域迁移的关键不在对齐特征，而在构建可迁移的语义表征。

主线3：LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO（132天A/B，销量+9.5%）将偏好优化引入销售线索评分，解决稀疏监督和漏斗层级问题。快手的Taiji（CTR +12.4%，收入+15.2%）提出帕累托最优策略优化，在语义与ID之间找到最优权衡点。Syft的DynaTree（生存率提升1.5倍）则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明，LLM在推荐中的应用正从“通用方案”走向“场景定制”。

生成式推荐与语义ID：对齐、编码、系统协同

本周生成式推荐领域密集产出：工业部署论文覆盖了从语义ID生成到全链路系统落地，学术工作则在时间感知扩散和编码器设计上给出新洞见。

统一检索与排序：UniPinRec的“一个模型，两阶段”

UniPinRec（Pinterest）— 这是首个在工业系统内统一检索与排序全栈的工作。此前检索和排序各训各的模型，虽然共用Transformer架构但输入格式、训练过程、服务栈各自独立。UniPinRec用一个共享Transformer编码用户行为序列，然后分支到检索（ANN点积）和排序（交叉注意力）两个任务头。三个关键技术让它可用：（1）Masked Action Modeling (MAM)消除序列交错，实现权重共享同时不翻倍上下文长度；（2）混合训练样本将行为序列与feed view impression榜单配对，同时满足两种目标；（3）跨阶段KV缓存共享，检索阶段计算的用户历史直接复用于排序，相比服务两个独立模型总FLOPs降低。线上效果：engagement约+1%，端到端延迟降低11.1%，QPS提升63.6%。相比之下，之前的工作如GRank只统一了生成式检索的候选生成部分，DualGR则关注长短兴趣模型，均未实现全栈统一。

思考模式为何无效：OneReason的感知-认知双因素框架

OneReason（快手）— 快手之前发布了OneRec-Think和OpenOneRec，但所有实验都显示思考模式（先推理再回答）并不比非思考模式好。OneReason找到了原因：有效推理需要感知（将token grounding到语义）和认知（将行为序列重组为连贯的兴趣点）两个因素。它提出三级认知增强CoT：item-level（物品级）、interest-level（兴趣级）、task-level（任务级），并在预训练阶段做强感知学习（item-textual alignment），然后在RL阶段使用专化-统一训练配方。线上部署覆盖短视频、直播、广告、电商多个业务，并开源了8B/0.8B模型。相关工作OneRec-Think已证明生成式推荐中的推理有用，但OneReason给出了更细致的因果分析。

SID的编码器问题：PrefixMem让LLM像看图像一样看语义ID

PrefixMem（Pinterest）— 语义ID（SID）作为物品的离散层级编码，它的层级结构意味着高层token的含义依赖于前缀上下文。但现有系统直接把SID token加入词汇表，让LLM从零学习这些上下文依赖。PrefixMem类比多模态LLM中的视觉编码器，设计了一个基于前缀n-gram记忆表的轻量级SID编码器，为每个SID token提供结构化、前缀条件化的表示。在Pinterest大规模数据上，最深级SID准确率提升46%，全SID检索召回提升22%。这暗示了SID作为一种独立模态需要专用编码器——类似于视觉需要ViT、音频需要whisper编码器。此前LETTER的RQ-VAE正则化思路只关注量化质量，未考虑LLM侧对SID结构的利用。

时间感知扩散：TDPM让扩散推荐尊重时间

TDPM — 扩散模型在推荐中的应用（如DiffRec、DreamRec）通常将历史交互中的物品均质化看待。但用户偏好受时间影响，老物品和近期物品对当前决策的贡献不同。TDPM将用户偏好解耦为周期偏好（长期稳定）和点偏好（近期触发事件触发），然后在扩散过程中对SID token施以时间感知的噪声调度。在Amazon Beauty等三个数据集上，HR@20平均提升29.21%，NDCG@20平均提升25.45%。这与DSIN按session划分兴趣的思路相似，但TDPM将其融入扩散框架。

SID质量诊断：DRQ量化框架与Shopee案例

DRQ（Shopee）— 语义ID失败的原因很难诊断：是码本利用率低？决策边界不稳定？还是嵌入空间的几何扭曲？这篇论文提出期望码字重叠和有效码本容量两个诊断指标，并用它们解释了RQ-VAE的失败模式。在此基础上提出Decoupled Residual Quantization (DRQ)，将连续几何重建与离散分布匹配解耦。在Shopee工业数据集上，DRQ在符号鲁棒性、重建保真度和行为感知软匹配三个指标上均优于RQ-VAE。作为案例研究，它给语义ID社区提供了一个诊断工具——比GateSID的自适应门控更注重可解释性。

查询监督对抗量化：DSIRM的层次前缀匹配

DSIRM（阿里巴巴）— 现有SID生成依赖无监督量化，无法确保具有相似查询意图的物品共享SID。DSIRM在残差量化中注入查询-物品交互监督，通过查询桥接对比量化让量化后的SID具有查询感知的语义划分。同时用LLM从查询文本显式预测物品SID，解决尾查询和意图模糊。在Tmall生产数据上离线AUC +1.54%，线上UCTR +0.13%、UCTCVR +0.25%。延续了LETTER的RQ-VAE正则化思路，但加入了查询级监督信号。

Takeaway： 生成式推荐进入“深水区”，UniPinRec的全栈统一和OneReason的感知-认知框架为工业落地提供了样板，但SID的编码器设计（PrefixMem）和诊断工具（DRQ）表明基础组件仍需打磨。

后续观察： PrefixMem能否在更多LLM系列上复现增益？UniPinRec的统一范式是否会成为下一代推荐系统的标准架构？

跨域推荐与冷启动：语义迁移成为核心能力

跨域推荐本周没有强调模型本身，而是聚焦于“如何用语义信号跨越领域鸿沟”。

短视频→直播的跨域桥接：RGCD-Rep的推理蒸馏

RGCD-Rep（快手）— 短视频有密集行为数据，直播是核心转化场景但数据稀疏。RGCD-Rep用一个冻结的教师MLLM生成结构化跨域推理知识（例如“用户总点赞萌宠视频 → 在直播中可能对宠物商品感兴趣”），蒸馏到一个轻量学生MLLM。然后将物品表示分解为可迁移表示和域残差表示——可迁移部分跨域共享，域残差部分捕获域特有信号。离线算好表示后集成到下游召回任务。在快手直播推荐中服务4亿+用户，A/B测试核心指标显著提升。相关工作SemaCDR也用LLM做跨域语义迁移，但RGCD-Rep的分解策略和工业化部署是新的。

不对称图架构：Shallow-RHS让冷启动内容“即刻嵌入”

Shallow-RHS（Tubi）— 流媒体平台Tubi的生产环境对冷启动内容有硬约束：新内容必须立刻有独立嵌入用于ANN检索，且设备嵌入也需要适合近邻搜索。Shallow-RHS构造了一个不对称的链接预测图架构：左端（设备）使用时间敏感的观看历史消息传递捕获协同信号；右端（内容）故意做“浅”——不用ID嵌入、不用子图、不用邻居聚合，只从内在特征（标题、描述、类别等）编码。训练后，内容编码器可以持续为新内容生成嵌入（实现隐式图补全）。该模式扩展至设备冷启动时，用人口统计特征构建群体嵌入。线上实验中，内容冷启动参与度相对提升3.5%，设备冷启动参与度提升4.2%。继承自Personalized Audiobook Recommendations at Spotify的异构图思路，但不对称设计更简洁。

合成数据驱动跨域迁移：SCALR

SCALR（亚马逊）— 将跨域事件迁移建模为合成数据生成：给定源域的用户事件，生成用户对目标域物品的交互可能性。这一步本质上是估计条件概率。下游模型在这些合成事件上训练，作为模型无关的跨域学习目标。线上A/B测试统计显著提升。这是少数将“合成数据”思路从LLM领域引入推荐跨域的工作之一，与Unified Supervision for Walmart的正负样本分级标签思路互补。

行为语义ID量化用于广告排序：RQ-FSQ与Hierarchical Discrete Embedding

Quantizing Intent（Meta）— 核心发现：有机feed行为的行为嵌入携带的跨域迁移信号（AUC +0.213%）远超用户画像文本（+0.036%）或活动微调LLM嵌入（+0.107%）。但行为嵌入维度高、存储大。作者提出RQ-FSQ（Residual Finite Scalar Quantization）将预训练嵌入量化，在30倍存储压缩下匹配稠密嵌入AUC。然后通过层次离散嵌入模块，将多级SID用前缀n-gram稀疏嵌入表端到端训练。在Meta广告排序系统中，冷启动用户AUC提升+1.522%。与GateSID的语义-协同对齐思路不同，它通过量化密度和层次前缀来压缩行为信号。

Takeaway： 跨域冷启的胜负手已从“对齐特征”转向“构建可迁移语义表征”——RGCD-Rep用MLLM推理蒸馏，Meta用行为量化SID。两个方向都强调迁移信号的质量而非数量。

后续观察： RQ-FSQ的量化质量能否在一个更通用的多域设置中保持？SCALR的合成数据生成是否会成为跨域推荐的标准组件？

LLM/Agent增强的检索与排序：行业差异化应用加速

本周LLM在推荐中的应用呈现两个趋势：一是LLM作为增强器（Enhancer）与ID系统做深层融合（Taiji）；二是LLM适应垂直场景的独特需求（HPRO的销售线索、DynaTree的新闻检索）。

帕累托最优的语义-ID权衡：Taiji的POPO

Taiji（快手）— LLM的语义空间与推荐系统的ID空间在强化学习对齐时存在固有冲突：语义奖励（如内容理解）和推荐偏好奖励（如CTR）往往方向不一致。Taiji提出Pareto Optimal Policy Optimization (POPO)，自适应调整跨域奖励权重，理论上保证达到帕累托最优。在SFT阶段，用逆向工程推理和开放拒绝采样生成高质量、领域特定的CoT数据。在快手广告平台部署（日活4亿+），CTR +12.4%，收入+15.2%。相比OneRec-Think的推理框架，Taiji在RL阶段的关键创新是理论证明了语义与ID的权衡边界。

层级偏好排序优化：HPRO在销售线索评分中的落地

HPRO（理想汽车）— 汽车销售线索评分与电商推荐有本质差异：决策周期长（可能数月）、漏斗多阶段（试驾→下单→交付）、监督稀疏（只有少量“成交”标签）。HPRO在LLM判别式框架上，用margin-aware Bradley-Terry公式将稀疏的二值标签转化为密集的漏斗感知偏好对，同时利用点态和配对监督。在理想汽车数据上AUC达0.8161，top-leads precision提升39.7%，132天线上A/B测试带来9.5%销量提升。延续了DPO的偏好优化思路，但适配了多级漏斗结构。

Agent建树+在线选择：DynaTree的时间敏感新闻检索

DynaTree（Syft）— 现有智能体RAG在新闻检索中的核心痛点是：每次查询都做语义扩展到推理迭代，耗时长且来不及适应新闻时效性。DynaTree将这个过程解耦：离线阶段，多智能体协作构建一个可复用的检索树（物理化查询主题的语义空间）；在线阶段，只做轻量的子树选择（用一个时间定位评估代理评估每棵子树），无需重跑智能体推理。在Syft生产系统线上A/B测试中，生存率从0.32-0.53提升至0.59-0.73，且持续优于现有召回器。相比Search-P1的路径中心奖励，DynaTree更注重适应时间变化。

拒绝信号作为资源：R3用于Agent技能路由

R3（腾讯）— Agent技能检索与文档检索不同：不仅需要每个查询-技能对单独相关，还需要选择的一组技能能协作完成任务（技能兼容性）。R3利用LLM自身的拒绝信号作为“兼容性”监督（当LLM拒绝使用一组技能时，说明它们不适合一起检索）。构建了R3-Skill双语基准（10,246技能，41,592查询，32,828拒绝标注），并在两阶段系统（R3-Embedding + R3-Reranker）中显式训练技能兼容性。显著优于BM25、DPR等传统检索器。这与Toolformer的工具使用思路不同，更关注检索阶段而非推理阶段。

用户状态前缀：TAP-PER实现130倍参数压缩

TAP-PER（微软）— LLM个性化要么通过检索用户历史构建prompt（依赖检索质量），要么为每个用户存独立adapter（存储成本线性增长）。TAP-PER用两个轻量前缀学习用户状态和查询条件表示，替换了显式prompt构造和独立adapter。在LaMP六个任务上全面超越RAG、OPPU等基线，每用户参数比OPPU少130倍，总参数比PER-PCS减半。继承了Prefix Tuning的思路，但将其应用于推荐个性化场景。

电商属性体系从零构建：BEATS在乐天台湾的部署

BEATS（乐天台湾）— 新兴市场的电商平台往往只有类目层级，缺少结构化属性体系（如“材质：棉”）。BEATS用多阶段LLM生成+人工验证迭代，从零构建属性体系。在乐天台湾覆盖9大类、2694子类、67277属性，540万+产品完成标注。生成的属性标签直接用于稠密检索和排序模型，性能优于原始目录。与EviSnap的facet cards思路相似，但BEATS更聚焦于大规模生产流程。

数据为中心的数值推理：DCRC在金融QA

DCRC（腾讯）— 金融QA中LLM对数值推理的幻觉问题。DCRC从数据出发：构造对抗数据（含控制噪声）、训练数据中心的编排智能体（从查询+文档生成可验证推理程序）、然后编译执行。在FinQA基准上准确率提升12.4%，已部署于腾讯元宝金融QA系统。与CoT的思路不同，DCRC用程序合成确保可审计。

推理免稀疏多模态检索：V-SPLADE

V-SPLADE（NAVER）— 视觉文档检索通常需要VLM编码查询（延迟高）或OCR+BM25（质量低）。V-SPLADE通过caption-gated token supervision，让视觉稀疏表示学会激活检索相关的词汇维度。训练时用VLM生成的标题作为词汇线索，推理时无需任何编码（纯稀疏索引）。在18.7M文档库上，R@5比同尺度稠密检索高一倍。扩展了SPLADE到多模态领域。

自适应检索器组合：Retriever Portfolios

Retriever Portfolios（Google Research/EPFL）— 面对异构查询（事实型到多跳推理），单一检索器无法覆盖。该方法通过expected best-of-k优化目标，从大量候选检索器中自动选择一小部分构成多样化组合。在多个QA基准上超越单检索器和朴素多检索器，且支持并行检索降低延迟。与Adaptive-RAG不同，它固定了检索器集合而非动态调整检索策略。

Takeaway： LLM/Agent在推荐中的应用正在从“通用检索增强”走向“行业差异化”——汽车销售线索需要漏斗感知排序，新闻检索需要时间敏感性，广告排序需要语义-ID帕累托权衡。

后续观察： Taiji的POPO理论能否推广到更多多目标场景？HPRO的层级偏好优化能否用于电商的多阶段漏斗（曝光→点击→购买）？

序列推荐与表示学习：长尾、稀疏、多行为

本周序列推荐的学术工作集中攻克三个问题：长尾信号异质性、时间尺度多速率、多行为噪声。

黑盒蒸馏中的长尾问题：BAHSD的自适应分层蒸馏

BAHSD — 序列推荐常被部署为黑盒API，外部团队想复现其能力需要知识蒸馏。但长尾分布下，头序列（行为密）会出现教师偏好固化，尾序列（行为疏）则给出平坦噪声预测。BAHSD提出多尺度一致性探测来自动量化信号可靠性，然后对高置信信号用动态温度KL散度（缓解固化），对低置信信号用排序一致性和InfoNCE对比学习（噪声鲁棒）。在三个数据集上平均提升4.98% over teacher，tail用户提升80%+。效法UnKD的知识蒸馏范式，但解决了信号异质性问题。

多速率时间聚合：MARS的密度自适应双编码器

MARS — 序列推荐中的Transformer用位置自注意力，状态空间模型用单一隐式衰减，都无法显式建模多尺度时间结构。MARS是一个编码器无关的聚合算子：从真实时间戳生成K个不同时间尺度的摘要，并用上下文自适应门控融合。最有趣的观察是：稀疏数据更适合Transformer（MARS-T），密集数据更适合Mamba（MARS-M）。模型根据训练集平均序列长度自动选择。在五个基准上HR@10均为最优，平均增益+19.7%，且MARS-M在ML-1M上以42%更少FLOPs超越SIGMA。

度量空间推理：MeRa验证了空间约束的必要性

MeRa — 空间预测（如下一地点推荐）中，潜推理是否能帮助？实验发现：没有度量空间先验时，潜推理反而会降低性能。MeRa引入一个基于距离感知注意力调制的轻量模块，显式地将坐标距离转化为偏差。在GETNext骨干上，没有度量偏置的推理vs有度量偏置的推理，NDCG@10差距达4.5%。论文还证明了度量空间约束下的推理收敛到唯一不动点。实验在Gowalla、Foursquare、微信三个空间预测基准上取得最佳。

多行为谱滤波：SpectraMB的去偏思路

SpectraMB — 多行为推荐（如同时建模点击、收藏、加购）需要处理两个异质性：行为内表示纠缠（共同传播导致噪声混入），行为间可靠性差异。SpectraMB在特征维度上做动态谱滤波，将嵌入重参数化到特征-频率空间，在目标行为监督下学习视图自适应的谱调制——无需手工设置频率阈值。然后使用全局上下文注意力评估每个行为与全局表示的一致性，进行可靠性感知融合。在Yelp、淘宝、天猫三个数据集上，HR@10提升最高12.4%，NDCG@10提升最高11.8%。

语义因子学习：SaFeAU的假阴性缓解

SaFeAU — 协同过滤中未交互的物品被当作负样本，但实际上其中大量是用户潜在喜欢的（假阴性）。SaFeAU通过语义因子路由（SFR）将物品表示解耦为多个独立语义因子，然后用语义因子匹配（SFM）从未交互物品中识别出与正样本共享语义因子的物品，作为可能的正样本。这四个稀疏数据集上，SaFeAU平均Recall@20提升5-10%，同时计算效率优于LightGCN等图方法。延续了DirectAU的对齐-均匀性框架，但加入了语义因子。

Takeaway： 序列推荐正从“统一的Transformer/S4”走向“密度自适应”——MARS根据数据密度选择编码器，BAHSD根据信号置信度调整蒸馏策略，SpectraMB根据可靠性做谱滤波。

后续观察： MARS的密度自适应设计能否推广到更大的工业序列长度（如1000+）？SaFeAU的语义因子在交叉域任务中是否具有迁移性？

值得关注的方向

1. 语义ID的编码器与诊断工具

PrefixMem的工作指出了语义ID作为独立模态需要专用编码器，这与多模态LLM的视觉编码器逻辑一致。DRQ则提供了诊断工具。随着生成式推荐在业界铺开，SID的质量控制和高效编码将成为基础设施级别的问题。后续需观察：PrefixMem是否能在更大LLM（如7B+）上保持增益？DRQ的诊断指标能否帮助自动调优SID生成器？

2. LLM-推荐权衡的理论化

Taiji的POPO给出了语义与ID奖励的帕累托最优解，HPRO的层级偏好优化则适配了多级漏斗。这是推荐系统中“多目标对齐”从经验调参走向理论分析的信号。需关注：POPO的帕累托证明能否推广到三个或更多目标？HPRO的层级偏好对能否嵌套到链式推荐场景（如种草-下单-复购）？

3. 合成数据在推荐中的工业化

SCALR将跨域事件迁移建模为合成数据生成，BAHSD则用合成教师信号做长尾蒸馏。合成数据在LLM领域已被证明有效，但在推荐中尚处早期。需跟踪：合成数据的保真度与下游推荐指标之间的相关性，以及如何用因果方法确保合成数据不引入偏差。

本周论文速览

生成式推荐与语义ID

OneReason — 快手提出感知-认知双因素框架，三级CoT格式+专化-统一RL训练，在多业务部署，开源8B/0.8B模型。

UniPinRec — Pinterest实现检索与排序全栈统一，Masked Action Modeling+混合训练+跨阶段KV缓存共享，线上engagement +1%，延迟-11.1%，QPS+63.6%。

DSIRM — 阿里巴巴提出查询桥接对比量化，LLM预测物品SID，层次前缀匹配，线上UCTR+0.13%，UCTCVR+0.25%。

TDPM — 提出时间感知扩散+偏好解耦，在三个数据集上HR@20平均提升29.21%。

DRQ — Shopee提出解耦残差量化与诊断框架，期望码字重叠+有效码本容量，在工业数据集上优于RQ-VAE。

PrefixMem — Pinterest提出SID专用前缀n-gram编码器，最深SID准确率提升46%，召回提升22%。

跨域推荐与冷启动

RGCD-Rep — 快手提出MLLM推理蒸馏+可迁移表示分解，部署于直播推荐，服务4亿+用户。

Shallow-RHS — Tubi提出不对称图架构用于冷启动内容嵌入，线上内容冷启动参与度+3.5%，设备冷启动+4.2%。

SCALR — 亚马逊提出合成数据驱动的跨域事件迁移，线上A/B测试统计显著提升。

Quantizing Intent — Meta提出RQ-FSQ量化+层次离散嵌入，30倍压缩匹配稠密AUC，冷启用户AUC +1.522%。

LLM/Agent增强的检索与排序

Taiji — 快手提出Pareto最优策略优化POPO，逆向工程CoT+开放拒绝采样，CTR +12.4%，收入+15.2%。

HPRO — 理想汽车提出层级偏好排序优化，margin-aware Bradley-Terry，AUC 0.8161，销量+9.5%（132天A/B）。

DynaTree — Syft提出离线Agent建树+在线子树选择的新闻检索框架，生存率0.32-0.53→0.59-0.73。

R3 — 腾讯提出Reject-as-Resource Retriever，利用LLM拒绝信号训练技能兼容性，构建R3-Skill双语基准。

TAP-PER — 微软提出用户状态前缀+查询条件前缀的LLM个性化，每用户参数减130倍，LaMP全部任务超越基线。

BEATS — 乐天台湾用LLM多阶段生成+人工验证从零构建电商属性体系，覆盖9大类、2694子类、67277属性。

DCRC — 腾讯提出数据为中心的推理编译器，对抗数据+多阶段训练+编译执行，FinQA准确率+12.4%。

V-SPLADE — NAVER提出推理免多模态稀疏检索，caption-gated token supervision，18.7M文档上R@5翻倍。

Retriever Portfolios — Google Research/EPFL提出基于组合优化的自适应检索器组合，多个QA基准超越单检索器。

序列推荐与表示学习

BAHSD — 提出多尺度一致性探测+自适应分层蒸馏，黑盒序列推荐蒸馏中tail用户提升80%+。

MARS — 提出多速率时间聚合+密度自适应双编码器（MARS-T/MARS-M），五个基准HR@10全部最优。

MeRa — 提出度量空间偏置用于潜推理，证明无空间约束推理反而有害，三个空间预测基准NDCG@10最佳。

SpectraMB — 提出动态特征级谱滤波+全局上下文注意力融合，Yelp、淘宝、天猫上提升最高12.4%。

SaFeAU — 提出语义因子路由+匹配缓解假阴性，四个稀疏数据集上Recall@20提升5-10%。

其他

CausalNeg — 提出CoT反事实扰动+查询视角熵最大化弥合生成-判别差距，四个检索基准Recall@100平均提升5.2%。

LeAP — Bilibili提出可学习自适应排列用于异构稀疏特征选择，12000+特征中移除3600+冗余无性能下降。

Do Neural Retrievers Prefer Certain Documents? — 发现神经检索器隐式学习文档级相关性先验，LLM分析揭示标注协议偏好。

DS-MLP — 提出双流MLP+知识蒸馏，Criteo、Avazu、ML-1M上超越DCNv2等SOTA。

CSTS — 瑞士国家广播公司提出上下文标量化Thompson采样用于多目标决策，RTS真实数据上优于固定权重方法。

Variance Reduction for Heavy-Tailed Metrics — ShareChat提出后分层+CUPED方差缩减框架，变现实验中节省45%流量。