type
Post
status
Published
date
Jun 6, 2026 07:03
slug
rec-weekly-2026-W23
summary
本周推荐系统研究围绕三条技术主线展开。 主线1:生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一(线上engagement +1%,延迟-11.1%),跳出了生成式推荐仅做检索的边界。快手的OneReason(线上部署)则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失,并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是:生成式推荐的核心瓶颈已从模型架构转移至数据形态(语义ID)与系统协同。 主线2:跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep(服务4亿+用户)用MLLM推理蒸馏将短视频用户兴趣迁移至直播,冷启动参与度显著提升。Meta的Quantizing Intent论文(线上AUC +1.522%冷启)则将有机feed行为量化为语义ID注入广告排序,证明行为富集度决定跨域迁移质量。两篇的共同发现是:跨域迁移的关键不在对齐特征,而在构建可迁移的语义表征。 主线3:LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO(132天A/B,销量+9.5%)将偏好优化引入销售线索评分,解决稀疏监督和漏斗层级问题。快手的Taiji(CTR +12.4%,收入+15.2%)提出帕累托最优策略优化,在语义与ID之间找到最优权衡点。Syft的DynaTree(生存率提升1.5倍)则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明,LLM在推荐中的应用正从“通用方案”走向“场景定制”。
tags
推荐系统
周报
论文
category
推荐技术报告
icon
📚
password
priority
1
本周概览
本周推荐系统研究围绕三条技术主线展开。
主线1:生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一(线上engagement +1%,延迟-11.1%),跳出了生成式推荐仅做检索的边界。快手的OneReason(线上部署)则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失,并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是:生成式推荐的核心瓶颈已从模型架构转移至数据形态(语义ID)与系统协同。
主线2:跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep(服务4亿+用户)用MLLM推理蒸馏将短视频用户兴趣迁移至直播,冷启动参与度显著提升。Meta的Quantizing Intent论文(线上AUC +1.522%冷启)则将有机feed行为量化为语义ID注入广告排序,证明行为富集度决定跨域迁移质量。两篇的共同发现是:跨域迁移的关键不在对齐特征,而在构建可迁移的语义表征。
主线3:LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO(132天A/B,销量+9.5%)将偏好优化引入销售线索评分,解决稀疏监督和漏斗层级问题。快手的Taiji(CTR +12.4%,收入+15.2%)提出帕累托最优策略优化,在语义与ID之间找到最优权衡点。Syft的DynaTree(生存率提升1.5倍)则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明,LLM在推荐中的应用正从“通用方案”走向“场景定制”。
生成式推荐与语义ID:对齐、编码、系统协同
本周生成式推荐领域密集产出:工业部署论文覆盖了从语义ID生成到全链路系统落地,学术工作则在时间感知扩散和编码器设计上给出新洞见。
统一检索与排序:UniPinRec的“一个模型,两阶段”
UniPinRec(Pinterest)— 这是首个在工业系统内统一检索与排序全栈的工作。此前检索和排序各训各的模型,虽然共用Transformer架构但输入格式、训练过程、服务栈各自独立。UniPinRec用一个共享Transformer编码用户行为序列,然后分支到检索(ANN点积)和排序(交叉注意力)两个任务头。三个关键技术让它可用:(1)Masked Action Modeling (MAM)消除序列交错,实现权重共享同时不翻倍上下文长度;(2)混合训练样本将行为序列与feed view impression榜单配对,同时满足两种目标;(3)跨阶段KV缓存共享,检索阶段计算的用户历史直接复用于排序,相比服务两个独立模型总FLOPs降低。线上效果:engagement约+1%,端到端延迟降低11.1%,QPS提升63.6%。相比之下,之前的工作如GRank只统一了生成式检索的候选生成部分,DualGR则关注长短兴趣模型,均未实现全栈统一。
思考模式为何无效:OneReason的感知-认知双因素框架
OneReason(快手)— 快手之前发布了OneRec-Think和OpenOneRec,但所有实验都显示思考模式(先推理再回答)并不比非思考模式好。OneReason找到了原因:有效推理需要感知(将token grounding到语义)和认知(将行为序列重组为连贯的兴趣点)两个因素。它提出三级认知增强CoT:item-level(物品级)、interest-level(兴趣级)、task-level(任务级),并在预训练阶段做强感知学习(item-textual alignment),然后在RL阶段使用专化-统一训练配方。线上部署覆盖短视频、直播、广告、电商多个业务,并开源了8B/0.8B模型。相关工作OneRec-Think已证明生成式推荐中的推理有用,但OneReason给出了更细致的因果分析。
SID的编码器问题:PrefixMem让LLM像看图像一样看语义ID
PrefixMem(Pinterest)— 语义ID(SID)作为物品的离散层级编码,它的层级结构意味着高层token的含义依赖于前缀上下文。但现有系统直接把SID token加入词汇表,让LLM从零学习这些上下文依赖。PrefixMem类比多模态LLM中的视觉编码器,设计了一个基于前缀n-gram记忆表的轻量级SID编码器,为每个SID token提供结构化、前缀条件化的表示。在Pinterest大规模数据上,最深级SID准确率提升46%,全SID检索召回提升22%。这暗示了SID作为一种独立模态需要专用编码器——类似于视觉需要ViT、音频需要whisper编码器。此前LETTER的RQ-VAE正则化思路只关注量化质量,未考虑LLM侧对SID结构的利用。
时间感知扩散:TDPM让扩散推荐尊重时间
TDPM — 扩散模型在推荐中的应用(如DiffRec、DreamRec)通常将历史交互中的物品均质化看待。但用户偏好受时间影响,老物品和近期物品对当前决策的贡献不同。TDPM将用户偏好解耦为周期偏好(长期稳定)和点偏好(近期触发事件触发),然后在扩散过程中对SID token施以时间感知的噪声调度。在Amazon Beauty等三个数据集上,HR@20平均提升29.21%,NDCG@20平均提升25.45%。这与DSIN按session划分兴趣的思路相似,但TDPM将其融入扩散框架。
SID质量诊断:DRQ量化框架与Shopee案例
DRQ(Shopee)— 语义ID失败的原因很难诊断:是码本利用率低?决策边界不稳定?还是嵌入空间的几何扭曲?这篇论文提出期望码字重叠和有效码本容量两个诊断指标,并用它们解释了RQ-VAE的失败模式。在此基础上提出Decoupled Residual Quantization (DRQ),将连续几何重建与离散分布匹配解耦。在Shopee工业数据集上,DRQ在符号鲁棒性、重建保真度和行为感知软匹配三个指标上均优于RQ-VAE。作为案例研究,它给语义ID社区提供了一个诊断工具——比GateSID的自适应门控更注重可解释性。
查询监督对抗量化:DSIRM的层次前缀匹配
DSIRM(阿里巴巴)— 现有SID生成依赖无监督量化,无法确保具有相似查询意图的物品共享SID。DSIRM在残差量化中注入查询-物品交互监督,通过查询桥接对比量化让量化后的SID具有查询感知的语义划分。同时用LLM从查询文本显式预测物品SID,解决尾查询和意图模糊。在Tmall生产数据上离线AUC +1.54%,线上UCTR +0.13%、UCTCVR +0.25%。延续了LETTER的RQ-VAE正则化思路,但加入了查询级监督信号。
- Takeaway: 生成式推荐进入“深水区”,UniPinRec的全栈统一和OneReason的感知-认知框架为工业落地提供了样板,但SID的编码器设计(PrefixMem)和诊断工具(DRQ)表明基础组件仍需打磨。
- 后续观察: PrefixMem能否在更多LLM系列上复现增益?UniPinRec的统一范式是否会成为下一代推荐系统的标准架构?
跨域推荐与冷启动:语义迁移成为核心能力
跨域推荐本周没有强调模型本身,而是聚焦于“如何用语义信号跨越领域鸿沟”。
短视频→直播的跨域桥接:RGCD-Rep的推理蒸馏
RGCD-Rep(快手)— 短视频有密集行为数据,直播是核心转化场景但数据稀疏。RGCD-Rep用一个冻结的教师MLLM生成结构化跨域推理知识(例如“用户总点赞萌宠视频 → 在直播中可能对宠物商品感兴趣”),蒸馏到一个轻量学生MLLM。然后将物品表示分解为可迁移表示和域残差表示——可迁移部分跨域共享,域残差部分捕获域特有信号。离线算好表示后集成到下游召回任务。在快手直播推荐中服务4亿+用户,A/B测试核心指标显著提升。相关工作SemaCDR也用LLM做跨域语义迁移,但RGCD-Rep的分解策略和工业化部署是新的。
不对称图架构:Shallow-RHS让冷启动内容“即刻嵌入”
Shallow-RHS(Tubi)— 流媒体平台Tubi的生产环境对冷启动内容有硬约束:新内容必须立刻有独立嵌入用于ANN检索,且设备嵌入也需要适合近邻搜索。Shallow-RHS构造了一个不对称的链接预测图架构:左端(设备)使用时间敏感的观看历史消息传递捕获协同信号;右端(内容)故意做“浅”——不用ID嵌入、不用子图、不用邻居聚合,只从内在特征(标题、描述、类别等)编码。训练后,内容编码器可以持续为新内容生成嵌入(实现隐式图补全)。该模式扩展至设备冷启动时,用人口统计特征构建群体嵌入。线上实验中,内容冷启动参与度相对提升3.5%,设备冷启动参与度提升4.2%。继承自Personalized Audiobook Recommendations at Spotify的异构图思路,但不对称设计更简洁。
合成数据驱动跨域迁移:SCALR
SCALR(亚马逊)— 将跨域事件迁移建模为合成数据生成:给定源域的用户事件,生成用户对目标域物品的交互可能性。这一步本质上是估计条件概率。下游模型在这些合成事件上训练,作为模型无关的跨域学习目标。线上A/B测试统计显著提升。这是少数将“合成数据”思路从LLM领域引入推荐跨域的工作之一,与Unified Supervision for Walmart的正负样本分级标签思路互补。
行为语义ID量化用于广告排序:RQ-FSQ与Hierarchical Discrete Embedding
Quantizing Intent(Meta)— 核心发现:有机feed行为的行为嵌入携带的跨域迁移信号(AUC +0.213%)远超用户画像文本(+0.036%)或活动微调LLM嵌入(+0.107%)。但行为嵌入维度高、存储大。作者提出RQ-FSQ(Residual Finite Scalar Quantization)将预训练嵌入量化,在30倍存储压缩下匹配稠密嵌入AUC。然后通过层次离散嵌入模块,将多级SID用前缀n-gram稀疏嵌入表端到端训练。在Meta广告排序系统中,冷启动用户AUC提升+1.522%。与GateSID的语义-协同对齐思路不同,它通过量化密度和层次前缀来压缩行为信号。
- Takeaway: 跨域冷启的胜负手已从“对齐特征”转向“构建可迁移语义表征”——RGCD-Rep用MLLM推理蒸馏,Meta用行为量化SID。两个方向都强调迁移信号的质量而非数量。
- 后续观察: RQ-FSQ的量化质量能否在一个更通用的多域设置中保持?SCALR的合成数据生成是否会成为跨域推荐的标准组件?
LLM/Agent增强的检索与排序:行业差异化应用加速
本周LLM在推荐中的应用呈现两个趋势:一是LLM作为增强器(Enhancer)与ID系统做深层融合(Taiji);二是LLM适应垂直场景的独特需求(HPRO的销售线索、DynaTree的新闻检索)。
帕累托最优的语义-ID权衡:Taiji的POPO
Taiji(快手)— LLM的语义空间与推荐系统的ID空间在强化学习对齐时存在固有冲突:语义奖励(如内容理解)和推荐偏好奖励(如CTR)往往方向不一致。Taiji提出Pareto Optimal Policy Optimization (POPO),自适应调整跨域奖励权重,理论上保证达到帕累托最优。在SFT阶段,用逆向工程推理和开放拒绝采样生成高质量、领域特定的CoT数据。在快手广告平台部署(日活4亿+),CTR +12.4%,收入+15.2%。相比OneRec-Think的推理框架,Taiji在RL阶段的关键创新是理论证明了语义与ID的权衡边界。
层级偏好排序优化:HPRO在销售线索评分中的落地
HPRO(理想汽车)— 汽车销售线索评分与电商推荐有本质差异:决策周期长(可能数月)、漏斗多阶段(试驾→下单→交付)、监督稀疏(只有少量“成交”标签)。HPRO在LLM判别式框架上,用margin-aware Bradley-Terry公式将稀疏的二值标签转化为密集的漏斗感知偏好对,同时利用点态和配对监督。在理想汽车数据上AUC达0.8161,top-leads precision提升39.7%,132天线上A/B测试带来9.5%销量提升。延续了DPO的偏好优化思路,但适配了多级漏斗结构。
Agent建树+在线选择:DynaTree的时间敏感新闻检索
DynaTree(Syft)— 现有智能体RAG在新闻检索中的核心痛点是:每次查询都做语义扩展到推理迭代,耗时长且来不及适应新闻时效性。DynaTree将这个过程解耦:离线阶段,多智能体协作构建一个可复用的检索树(物理化查询主题的语义空间);在线阶段,只做轻量的子树选择(用一个时间定位评估代理评估每棵子树),无需重跑智能体推理。在Syft生产系统线上A/B测试中,生存率从0.32-0.53提升至0.59-0.73,且持续优于现有召回器。相比Search-P1的路径中心奖励,DynaTree更注重适应时间变化。
拒绝信号作为资源:R3用于Agent技能路由
R3(腾讯)— Agent技能检索与文档检索不同:不仅需要每个查询-技能对单独相关,还需要选择的一组技能能协作完成任务(技能兼容性)。R3利用LLM自身的拒绝信号作为“兼容性”监督(当LLM拒绝使用一组技能时,说明它们不适合一起检索)。构建了R3-Skill双语基准(10,246技能,41,592查询,32,828拒绝标注),并在两阶段系统(R3-Embedding + R3-Reranker)中显式训练技能兼容性。显著优于BM25、DPR等传统检索器。这与Toolformer的工具使用思路不同,更关注检索阶段而非推理阶段。
用户状态前缀:TAP-PER实现130倍参数压缩
TAP-PER(微软)— LLM个性化要么通过检索用户历史构建prompt(依赖检索质量),要么为每个用户存独立adapter(存储成本线性增长)。TAP-PER用两个轻量前缀学习用户状态和查询条件表示,替换了显式prompt构造和独立adapter。在LaMP六个任务上全面超越RAG、OPPU等基线,每用户参数比OPPU少130倍,总参数比PER-PCS减半。继承了Prefix Tuning的思路,但将其应用于推荐个性化场景。
电商属性体系从零构建:BEATS在乐天台湾的部署
BEATS(乐天台湾)— 新兴市场的电商平台往往只有类目层级,缺少结构化属性体系(如“材质:棉”)。BEATS用多阶段LLM生成+人工验证迭代,从零构建属性体系。在乐天台湾覆盖9大类、2694子类、67277属性,540万+产品完成标注。生成的属性标签直接用于稠密检索和排序模型,性能优于原始目录。与EviSnap的facet cards思路相似,但BEATS更聚焦于大规模生产流程。
数据为中心的数值推理:DCRC在金融QA
DCRC(腾讯)— 金融QA中LLM对数值推理的幻觉问题。DCRC从数据出发:构造对抗数据(含控制噪声)、训练数据中心的编排智能体(从查询+文档生成可验证推理程序)、然后编译执行。在FinQA基准上准确率提升12.4%,已部署于腾讯元宝金融QA系统。与CoT的思路不同,DCRC用程序合成确保可审计。
推理免稀疏多模态检索:V-SPLADE
V-SPLADE(NAVER)— 视觉文档检索通常需要VLM编码查询(延迟高)或OCR+BM25(质量低)。V-SPLADE通过caption-gated token supervision,让视觉稀疏表示学会激活检索相关的词汇维度。训练时用VLM生成的标题作为词汇线索,推理时无需任何编码(纯稀疏索引)。在18.7M文档库上,R@5比同尺度稠密检索高一倍。扩展了SPLADE到多模态领域。
自适应检索器组合:Retriever Portfolios
Retriever Portfolios(Google Research/EPFL)— 面对异构查询(事实型到多跳推理),单一检索器无法覆盖。该方法通过expected best-of-k优化目标,从大量候选检索器中自动选择一小部分构成多样化组合。在多个QA基准上超越单检索器和朴素多检索器,且支持并行检索降低延迟。与Adaptive-RAG不同,它固定了检索器集合而非动态调整检索策略。
- Takeaway: LLM/Agent在推荐中的应用正在从“通用检索增强”走向“行业差异化”——汽车销售线索需要漏斗感知排序,新闻检索需要时间敏感性,广告排序需要语义-ID帕累托权衡。
- 后续观察: Taiji的POPO理论能否推广到更多多目标场景?HPRO的层级偏好优化能否用于电商的多阶段漏斗(曝光→点击→购买)?
序列推荐与表示学习:长尾、稀疏、多行为
本周序列推荐的学术工作集中攻克三个问题:长尾信号异质性、时间尺度多速率、多行为噪声。
黑盒蒸馏中的长尾问题:BAHSD的自适应分层蒸馏
BAHSD — 序列推荐常被部署为黑盒API,外部团队想复现其能力需要知识蒸馏。但长尾分布下,头序列(行为密)会出现教师偏好固化,尾序列(行为疏)则给出平坦噪声预测。BAHSD提出多尺度一致性探测来自动量化信号可靠性,然后对高置信信号用动态温度KL散度(缓解固化),对低置信信号用排序一致性和InfoNCE对比学习(噪声鲁棒)。在三个数据集上平均提升4.98% over teacher,tail用户提升80%+。效法UnKD的知识蒸馏范式,但解决了信号异质性问题。
多速率时间聚合:MARS的密度自适应双编码器
MARS — 序列推荐中的Transformer用位置自注意力,状态空间模型用单一隐式衰减,都无法显式建模多尺度时间结构。MARS是一个编码器无关的聚合算子:从真实时间戳生成K个不同时间尺度的摘要,并用上下文自适应门控融合。最有趣的观察是:稀疏数据更适合Transformer(MARS-T),密集数据更适合Mamba(MARS-M)。模型根据训练集平均序列长度自动选择。在五个基准上HR@10均为最优,平均增益+19.7%,且MARS-M在ML-1M上以42%更少FLOPs超越SIGMA。
度量空间推理:MeRa验证了空间约束的必要性
MeRa — 空间预测(如下一地点推荐)中,潜推理是否能帮助?实验发现:没有度量空间先验时,潜推理反而会降低性能。MeRa引入一个基于距离感知注意力调制的轻量模块,显式地将坐标距离转化为偏差。在GETNext骨干上,没有度量偏置的推理vs有度量偏置的推理,NDCG@10差距达4.5%。论文还证明了度量空间约束下的推理收敛到唯一不动点。实验在Gowalla、Foursquare、微信三个空间预测基准上取得最佳。
多行为谱滤波:SpectraMB的去偏思路
SpectraMB — 多行为推荐(如同时建模点击、收藏、加购)需要处理两个异质性:行为内表示纠缠(共同传播导致噪声混入),行为间可靠性差异。SpectraMB在特征维度上做动态谱滤波,将嵌入重参数化到特征-频率空间,在目标行为监督下学习视图自适应的谱调制——无需手工设置频率阈值。然后使用全局上下文注意力评估每个行为与全局表示的一致性,进行可靠性感知融合。在Yelp、淘宝、天猫三个数据集上,HR@10提升最高12.4%,NDCG@10提升最高11.8%。
语义因子学习:SaFeAU的假阴性缓解
SaFeAU — 协同过滤中未交互的物品被当作负样本,但实际上其中大量是用户潜在喜欢的(假阴性)。SaFeAU通过语义因子路由(SFR)将物品表示解耦为多个独立语义因子,然后用语义因子匹配(SFM)从未交互物品中识别出与正样本共享语义因子的物品,作为可能的正样本。这四个稀疏数据集上,SaFeAU平均Recall@20提升5-10%,同时计算效率优于LightGCN等图方法。延续了DirectAU的对齐-均匀性框架,但加入了语义因子。
- Takeaway: 序列推荐正从“统一的Transformer/S4”走向“密度自适应”——MARS根据数据密度选择编码器,BAHSD根据信号置信度调整蒸馏策略,SpectraMB根据可靠性做谱滤波。
- 后续观察: MARS的密度自适应设计能否推广到更大的工业序列长度(如1000+)?SaFeAU的语义因子在交叉域任务中是否具有迁移性?
值得关注的方向
1. 语义ID的编码器与诊断工具
PrefixMem的工作指出了语义ID作为独立模态需要专用编码器,这与多模态LLM的视觉编码器逻辑一致。DRQ则提供了诊断工具。随着生成式推荐在业界铺开,SID的质量控制和高效编码将成为基础设施级别的问题。后续需观察:PrefixMem是否能在更大LLM(如7B+)上保持增益?DRQ的诊断指标能否帮助自动调优SID生成器?
2. LLM-推荐权衡的理论化
Taiji的POPO给出了语义与ID奖励的帕累托最优解,HPRO的层级偏好优化则适配了多级漏斗。这是推荐系统中“多目标对齐”从经验调参走向理论分析的信号。需关注:POPO的帕累托证明能否推广到三个或更多目标?HPRO的层级偏好对能否嵌套到链式推荐场景(如种草-下单-复购)?
3. 合成数据在推荐中的工业化
SCALR将跨域事件迁移建模为合成数据生成,BAHSD则用合成教师信号做长尾蒸馏。合成数据在LLM领域已被证明有效,但在推荐中尚处早期。需跟踪:合成数据的保真度与下游推荐指标之间的相关性,以及如何用因果方法确保合成数据不引入偏差。
本周论文速览
生成式推荐与语义ID
OneReason — 快手提出感知-认知双因素框架,三级CoT格式+专化-统一RL训练,在多业务部署,开源8B/0.8B模型。
UniPinRec — Pinterest实现检索与排序全栈统一,Masked Action Modeling+混合训练+跨阶段KV缓存共享,线上engagement +1%,延迟-11.1%,QPS+63.6%。
DSIRM — 阿里巴巴提出查询桥接对比量化,LLM预测物品SID,层次前缀匹配,线上UCTR+0.13%,UCTCVR+0.25%。
TDPM — 提出时间感知扩散+偏好解耦,在三个数据集上HR@20平均提升29.21%。
DRQ — Shopee提出解耦残差量化与诊断框架,期望码字重叠+有效码本容量,在工业数据集上优于RQ-VAE。
PrefixMem — Pinterest提出SID专用前缀n-gram编码器,最深SID准确率提升46%,召回提升22%。
跨域推荐与冷启动
RGCD-Rep — 快手提出MLLM推理蒸馏+可迁移表示分解,部署于直播推荐,服务4亿+用户。
Shallow-RHS — Tubi提出不对称图架构用于冷启动内容嵌入,线上内容冷启动参与度+3.5%,设备冷启动+4.2%。
SCALR — 亚马逊提出合成数据驱动的跨域事件迁移,线上A/B测试统计显著提升。
Quantizing Intent — Meta提出RQ-FSQ量化+层次离散嵌入,30倍压缩匹配稠密AUC,冷启用户AUC +1.522%。
LLM/Agent增强的检索与排序
Taiji — 快手提出Pareto最优策略优化POPO,逆向工程CoT+开放拒绝采样,CTR +12.4%,收入+15.2%。
HPRO — 理想汽车提出层级偏好排序优化,margin-aware Bradley-Terry,AUC 0.8161,销量+9.5%(132天A/B)。
DynaTree — Syft提出离线Agent建树+在线子树选择的新闻检索框架,生存率0.32-0.53→0.59-0.73。
R3 — 腾讯提出Reject-as-Resource Retriever,利用LLM拒绝信号训练技能兼容性,构建R3-Skill双语基准。
TAP-PER — 微软提出用户状态前缀+查询条件前缀的LLM个性化,每用户参数减130倍,LaMP全部任务超越基线。
BEATS — 乐天台湾用LLM多阶段生成+人工验证从零构建电商属性体系,覆盖9大类、2694子类、67277属性。
DCRC — 腾讯提出数据为中心的推理编译器,对抗数据+多阶段训练+编译执行,FinQA准确率+12.4%。
V-SPLADE — NAVER提出推理免多模态稀疏检索,caption-gated token supervision,18.7M文档上R@5翻倍。
Retriever Portfolios — Google Research/EPFL提出基于组合优化的自适应检索器组合,多个QA基准超越单检索器。
序列推荐与表示学习
BAHSD — 提出多尺度一致性探测+自适应分层蒸馏,黑盒序列推荐蒸馏中tail用户提升80%+。
MARS — 提出多速率时间聚合+密度自适应双编码器(MARS-T/MARS-M),五个基准HR@10全部最优。
MeRa — 提出度量空间偏置用于潜推理,证明无空间约束推理反而有害,三个空间预测基准NDCG@10最佳。
SpectraMB — 提出动态特征级谱滤波+全局上下文注意力融合,Yelp、淘宝、天猫上提升最高12.4%。
SaFeAU — 提出语义因子路由+匹配缓解假阴性,四个稀疏数据集上Recall@20提升5-10%。
其他
CausalNeg — 提出CoT反事实扰动+查询视角熵最大化弥合生成-判别差距,四个检索基准Recall@100平均提升5.2%。
LeAP — Bilibili提出可学习自适应排列用于异构稀疏特征选择,12000+特征中移除3600+冗余无性能下降。
Do Neural Retrievers Prefer Certain Documents? — 发现神经检索器隐式学习文档级相关性先验,LLM分析揭示标注协议偏好。
DS-MLP — 提出双流MLP+知识蒸馏,Criteo、Avazu、ML-1M上超越DCNv2等SOTA。
CSTS — 瑞士国家广播公司提出上下文标量化Thompson采样用于多目标决策,RTS真实数据上优于固定权重方法。
Variance Reduction for Heavy-Tailed Metrics — ShareChat提出后分层+CUPED方差缩减框架,变现实验中节省45%流量。