推荐周报 2026-W19
2026-5-9
| 2026-5-11
字数 8916阅读时长 23 分钟
type
Post
status
Published
date
May 9, 2026 10:03
slug
rec-weekly-2026-W19
summary
本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。 生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。 检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。 工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。
tags
推荐系统
周报
论文
category
推荐技术报告
icon
password
priority
1

本周概览

本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。
生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。
检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。
工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。

生成式推荐与 Semantic ID 演进

本周四篇论文把 SID 这一层拆开来打。两篇工业论文把"商业价值"和"地理空间"压进 tokenizer,一篇学术论文从理论上指出 SID 树结构带来的概率耦合,一篇工程向论文用胶囊路由替换硬量化。共同的潜台词:自回归 GR 的天花板正越来越明显地落在 tokenizer 上。
腾讯微信视频号广告:把价值对齐写进 SID 解码空间。 Unified Value Alignment for Generative Recommendation in Industrial Advertising (2605.05803) 直面广告 GR 的特殊困难——不仅要对齐用户兴趣,还要对齐 eCPM。现有 GR 链路 tokenization、decoding、serving 三段都偏语义,价值信号塞不进去。UniVA 把价值信号同时打进三段:tokenizer 阶段引入 Commercial SID,把价值相关属性注入 SID 构造,得到价值可分的 item 表征;decoder 阶段做 Generation-as-Ranking,用监督学习 + eCPM-aware RL 联合训练,把价值分直接融进 next-item SID 生成的 logits,一次解码同时完成生成与排序;serving 阶段把上一步的 logits 当线上 value guidance,配合个性化 trie 树把解码空间约束到本次请求合法的 SID 路径上。关键数字: 离线 Hit Rate@100 相对 baseline +37.04%,微信视频号广告线上 A/B GMV +1.5%。横向看,同来自腾讯系的 LEADRE 在视频号上的 GMV lift 是 1.57%,量级相当;UniVA 的差异是把价值对齐从外部排序模块迁回到 GR 内部解码空间——decoder 自身就是价值感知的 ranker,少了一段独立精排。
腾讯地图:地理坐标进 SID。 Revisiting General Map Search via Generative Point-of-Interest Retrieval (2605.03397) 处理的痛点是地图搜索 query 表面语义不足,且强依赖空间上下文。传统检索做表层语义匹配会漏,纯 LLM 又生成出地图上不存在的 POI。GenPOI 把异构搜索上下文与 POI 统一组织成结构化序列,交给 LLM 做空间感知的候选生成。SID 设计上引入 Geo-Semantic POI Tokenization,把语义和地理坐标信息一起编进每个 POI 的 token 序列;解码侧用 proximity-aware constrained generation,把 LLM 的解码空间限制在 query 周围的合法 POI 上。在腾讯地图 1000 万级 POI 工业数据上效果优于现有 POI 检索基线。和早期把 POI 直接转成 SID 的做法(如 GNPR-SID)相比,GenPOI 的差别是把地理坐标显式纳入 token,并通过 trie 式约束让生成结果不会跳出合理空间范围。
UCSD × Snap:理论上指出 SID 解码树的概率耦合。 Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation (2605.06331) 是学术侧第一次从理论角度回答"为什么 GR 在 SID 层会把语义近的 item 挤到一起"。作者把 token-by-token 解码看成在 SID 诱导的解码树上做 traversal,叶子节点是候选 item。观察是 GR 给同一用户的 item 概率与树结构强耦合——树上邻近的 item 概率几乎一样,user-specific 偏好分辨不开。文章进一步证明这种结构相关性会让 GR 表达不了一些简单的协同过滤模式,CF 模型却能轻松拟合。方法叫 Latte:在每个 SID token 之前注入一个 latent token,把单棵解码树重塑成多棵 latent-token 条件下的子树,每个 item 在不同子树上的"距离"不一样。指标: NDCG@10 平均相对 +3.45%,code 已开源。和 LLaDA-Rec 这类直接换掉自回归走离散扩散并行解码的方案相比,Latte 是最小侵入的修补——结构上还是自回归,只在 token 序列前缀挂 latent,工程成本低很多。
CapsID:胶囊路由替代硬量化,SID 变长。 CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation (2605.05096) 观点直接:GR 的瓶颈不在 Transformer,在 tokenizer。RVQ 每层硬最近邻分配在簇边界把多面语义截断,早期错误一路传到后面 SID 位。CapsID 直接换掉硬量化:每层用胶囊路由,item 以概率分配到多个语义胶囊,残差用路由后的重建更新而不是单一胜出码,活跃胶囊置信度足够高时 SID 就提前终止——SID 因此变长可变。在此之上,SemanticBPE 把相邻 SID token 按共现 + embedding 兼容度合成可复用的子词。在 Amazon Beauty/Sports/Toys 三个公开集和一个 35M item 工业目录上跑:相对最强单一表征基线 ReSID,Recall@10 平均 +9.6%;与 COBRA 这类稀疏-稠密混合系统相比,公开 benchmark 上指标持平或更好,推断延迟只有它的 51%。消融显示软路由、迭代一致性、置信度驱动长度三件事独立贡献,长尾 item 上增益最大。
四篇放在一起,趋势是把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 SID 本身,而不是在 Transformer 解码端打补丁。SID 这一层正在从"item 的指针"变成"item 多视角属性的压缩编码"。

Agentic Search — 从相似度检索到推理式检索

本周五篇论文集中拆掉了一个长期被默认的接口:top-k 相似度。共同的诊断是单步召回在隐性意图、稀疏线索、结构约束下漏得太多,下游再强的推理也补不回来。分歧在补丁打在哪儿——SIRA 用一发 BM25 替代多轮探索;ByteDance 把整个相关性闭环交给 agent;DCI 干脆把 grep 当检索器;OBLIQ-Bench 把这套问题量化成新基准;T3 则把"被检索物"从文档换成思维链。
字节跳动 TikTok Shop:让 agent 全员替换电商搜索相关性闭环。 A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance (2605.05991) 是工业侧最完整的一篇。问题是电商搜索相关性的优化在线下是一个由用户、PM、标注员、算法、评估员组成的闭环,每一段都依赖人。框架由三个 agent 组成:Annotator Agent 做多轮标注(基于内部 GRM 生成式相关性模型)、Optimizer Agent 自主分析 bad case 并改模型、User Agent 用对话方式从线上流量里挖 bad case,三者闭环自演化。配套 harness 工程层包括统一召排相关性模型、指令跟随式相关性模型、Global Memory、Deep Search Agent。数字密度极高,全部以 SBS(side-by-side)win-rate gain 在线累计: LLM Annotator +12.38%、GRM-based selection +9.78%、Agentic Optimizer +7.28%、User-Annotator 对话 +8.9%、Automated Pipeline +10.17%;Harness 层再叠加 All-In-One LLM +4.56%、Instruction-Following +3.94%、Global Memory +2.92%、Deep Search +5.84%;同样的策略迁移到一个小语种市场后累计 SBS +13%。这是一篇把 agent 框架和工业相关性流水线深度耦合的样本——所有提升都以"在前一版上线策略上的累计增量"汇报,而不是离线指标。
Meta Superintelligence Labs:把多轮 agentic 检索压成一次 BM25。 Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval (2605.06647) 把矛头对准多轮 agentic 检索本身。SIRA 的诊断是当前 retrieval agent 像新手翻不熟的资料库——发探索 query、读片段、改 query,多轮放大延迟和成本。它的反命题是把多轮探索压成一次"corpus-discriminative"检索:不问"什么词与 query 相关",问"什么词能把目标证据从语料级 confuser 里切开"。具体三件事:corpus 侧让 LLM 离线给每篇文档补充缺失的检索词;query 侧让 LLM 预测 query 漏掉的证据词;用 document-frequency 作为 tool call 把太常见、太罕见或不会拉开 margin 的扩展词剪掉;最终一次加权 BM25 把原 query 和验证后的扩展拼起来。LLM 用一个开源 MoE 模型(Qwen3 系列、约 3B 激活参数、frozen),完全 training-free、无需 retriever 微调、无 embedding index。10 个 BEIR 数据集 + 下游 QA 上 Recall@10 在 8/10 取得最优; SciDocs +36% 相对、CQADupStack +23% 相对。作为"训练免费、单轮 BM25",它直接挑战了 dense 检索 + 多轮 agent 这条主流路线——把检索的 cognition 全部前置到 LLM 一次写出的 query expansion。
DCI:把 retriever 整个删掉,agent 用 grep 直接调查语料。 Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction (2605.05242) 立场比 SIRA 更激进:把 retriever 整个删掉。Direct Corpus Interaction(DCI)让 agent 用通用 terminal 工具——grep、文件读、shell 命令、轻量脚本——直接搜原始语料,没有 embedding 模型、没有向量索引、没有 retrieval API、没有离线索引。论点是 top-k 相似度接口的"分辨率"太粗,掩盖了精确词约束、稀疏线索合取、局部上下文核验、多步假设修正这些 agentic 操作。DCI-Agent-CC 用 Claude Sonnet 4.6(据 BrowseComp-Plus 实验):把 Qwen3-Embedding-8B 检索工具换成 DCI,accuracy 从 69.0% 升到 80.0%(+11.0pp),同时 API 成本从 $1,440 降到 $1,016(-29.4%); 比最强 retrieval baseline GPT-5 + Qwen3-Embedding-8B(71.7%)再高 +8.3pp;Multi-hop QA 6 个数据集平均 accuracy 83.0,比最强 retrieval-agent baseline +30.7pp;IR ranking 平均 NDCG@10 68.5,比最强 baseline +21.5pp。轻量版 DCI-Agent-Lite 只用 GPT-5.4 nano + bash + read,在六个数据集上仍是 Top-2。
MIT:用 OBLIQ-Bench 量化"为什么必须改接口"。 OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries (2605.06235) 把 SIRA、DCI 这套问题给出了 benchmark 支点。作者定义了一类 oblique query:判定相关性的属性是潜在的、在文档表面没有显式表达——比如找所有"用嘲讽口吻表达隐含立场的推文"、"展示某种失败模式的对话日志"。OBLIQ-Bench 由五个长尾语料上的检索任务组成(Twitter-Conflict、WildChat Errors、Math Meta Program、Writing-Style、Congress Hearings)。核心实验暴露的是 retrieval-verification 不对称:reasoning LLM 在小 batch 内可以稳定识别 oblique 相关性,但 BM25、dense、late interaction、agentic pipeline 几乎全部接近 0 NDCG@10。 例:Writing-Style 上 BM25 在 rank 10 完全找不到目标,dense embedding 远低于 reasoning LLM 的 oracle 表现,反倒是 149M 参数的 LateOn 这种多向量后期交互模型表现相对较好——支持了"局部对齐比全局相似度重要"的假设。论文还构造了 Oracle GPT-5.2 Tournament——在大池硬 distractor 上做锦标赛式 listwise rerank——证明信号其实存在,只是被相似度接口屏蔽。这篇是给 SIRA 与 DCI 提供"为什么必须改接口"的实证支点:现有 benchmark(MS MARCO、BEIR、MTEB、BRIGHT)饱和不是因为 IR 解决了,而是因为 benchmark 不够 oblique。
UC Berkeley:把 RAG 的 corpus 换成思维链。 RAG over Thinking Traces Can Improve Reasoning Tasks (2605.03344) 把 agentic search 的 corpus 换了对象。常识是 RAG 对 math/code 这类 reasoning-intensive 任务帮助有限,作者反驳:限制不在 RAG,而在语料选择。方法是不检索文档,而检索"thinking traces"——LLM 解题时产生的中间思维轨迹。T3 是一个离线方法,把这些 trace 重写成结构化的、便于检索的形式(例如把 trace 拆成断言/反驳/中间结论的紧凑表征)。下游用最简单的 retrieve-then-generate,没有重新训练。数字最锋利的对比在 AIME 2025-2026:用 Gemini-2-thinking 生成的 trace 作为 corpus,Gemini-2.5-Flash +56.3%、GPT-OSS-120B +8.6%、GPT-5 +7.6%——用更小或更老模型生成的 trace 给更新更强模型注水仍然有效。 LiveCodeBench 与 GPQA-Diamond 上同样一致提升。推断成本基本不增加,T3 还能把推理成本降低最多 15%。代码已开源(github.com/Narabzad/t3)。
五篇放一起,趋势是把检索从单步相似度盒子拆成两个独立轴:corpus interface(top-k vs. 单发 BM25 vs. 终端工具)和 corpus content(文档 vs. 思维链 vs. 案例库)。Top-k embedding 在这两个轴上都只占一个角落。

LLM 推荐的对齐与部署

本周这条线四篇都在解决"LLM4Rec 怎么落地"的两个具体痛点:训练侧 token-level loss 怎么改成列表/边界级目标,部署侧端云分工和分布外查询怎么处理。三篇是工业系统(淘宝端侧、字节对话、美团 DPO),一篇 USTC × 浙大学术。
阿里淘天:把意图理解 LLM 压到手机端。 RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation (2605.04726) 把 next-query prediction 的 LLM 从云端搬到手机本地。原方案是云上大模型生成下一查询、再回流到推荐链路,链路长且推理开销受调用预算限制。RecGPT-Mobile 设计的是端侧轻量 LLM 作为 intent understanding agent,监听用户在 App 内的近期交互行为,本地推断下一搜索意图并实时调整 feed 推荐结果。核心约束是手机上的算力和内存——文章定位是给生产级推荐系统在移动端部署 LLM 探一条工程路径,强调 next-query prediction 是这条路上首个可规模化的落点。线上 A/B 显示推荐结果准确性显著提升,离线分析也确认能更快捕捉用户兴趣演化。这个方向与历史上的 RecGPT 主线(云端十亿级参数、淘宝"猜你喜欢"全量上线)形成端云分工——云端继续做长链路意图建模,端侧做高频实时反应。
字节跳动:用主动 query 打破对话起点推荐的回声室。 Bridging Passive and Active: Enhancing Conversation Starter Recommendation via Active Expression Modeling (2605.05855) 处理的是对话式搜索里的"会话起点推荐"问题——此前依赖经典曝光-点击闭环训练,结果是回声室:起点推荐越来越收敛到热门、通用的问句,无法跟上开放世界意图分布。本文的关键观察是用户的主动手输 query 已经穿过菜单、直接表达开放世界意图,是打破闭环的天然信号。难点有两个:被动起点和主动 query 之间存在分布偏移;主动 query 是开放文本,传统基于 item ID 的热门度统计在大规模工业流式训练里失效。PA-Bridge 框架两件事——一个对抗式分布对齐器把主动表达的分布拉到被动起点空间;一个语义离散器把开放文本变成可统计 ID-able 单元,从而让经典的热门度去偏算法能在流式训练上跑起来。线上 A/B:Feature Penetration Rate +0.54%、User Active Days 提升。 架构上是工业流式推荐和 LLM 时代对话式搜索的衔接层,没有引入新的 LLM 推理开销。
中科大 × 美团:揭示多负样本 DPO 的"偏好优化坍塌"。 DynamicPO: Dynamic Preference Optimization for Recommendation (2605.00327) 切的是 DPO 在推荐里的"负样本越多反而越差"现象。作者把这个现象命名为 preference optimization collapse:训练 loss 持续下降,但推荐指标退化。理论上的解释是梯度抑制——大量易判别负样本(很容易被模型拉开距离)在梯度里占主导,把决策边界附近真正定义偏好分界的"边界负样本"的梯度信号压住了。DynamicPO 是一个轻量 plug-and-play 框架,两个自适应机制:Dynamic Boundary Negative Selection 在每一步识别并优先采用接近当前模型决策边界的负样本;Dual-Margin Dynamic β Adjustment 按样本边界模糊度逐样本调节优化强度(DPO 里的 β 不再全局固定)。三个公开数据集上都防住了 collapse,显著提升多负样本 DPO 系列方法的精度,且额外计算开销可忽略。
中科大 × 浙大:贝叶斯 list-wise alignment 替代静态 BoN。 Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation (2605.04559) 直面 LLM4Rec 现有训练目标基本是 token-level、难以直接优化 NDCG/Fairness 这类列表级、不可微目标的问题。Best-of-N(BoN)推理时直接对这些指标做选择,效果好但代价大无法上线。BoN Alignment 路线是把 BoN 的搜索能力蒸到模型里——但目前方法两个毛病:Indiscriminate Supervision,静态参考分布无法区分超出经验范围的候选间相对优劣;Gradient Decay,模型变强后有效监督信号迅速衰减。BLADE 用贝叶斯框架持续更新目标分布——历史先验和当前 rollout 给出的动态证据融合,构造一个随模型能力共同进化的 self-evolving target。三个真实数据集上一致超过 SOTA 基线;关键是打破了 BoN Alignment 的静态性能上限——Recall、NDCG 这类排序精度和 Fairness、Diversity 这类列表级指标都获得持续增益。代码 github.com/RegionCh/BLADE。
把四篇放一起看,训练侧两篇都在拒绝静态目标——BLADE 让目标分布跟模型一起进化,DynamicPO 让负样本权重跟边界距离动态调整;部署侧两篇都在重构 LLM 与推荐链路的接口——RecGPT-Mobile 把推理放到端侧换实时性,PA-Bridge 把开放文本主动表达喂回流式推荐管道。

工业精排 — 多任务、特征效率与频域建模

本周三篇精排论文都来自工业线,关注的不是模型结构本身,而是工程化痛点:CVR 数据稀疏、用户行为序列里的噪声、以及特征下线还要不要重训。三家给出了三种思路。
华为诺亚方舟:跨任务知识迁移缓解 CVR 训练样本稀疏。 Effective Knowledge Transfer for Multi-Task Recommendation Models (2605.05730) 把 CVR 当成可以从其他用户行为(点击、加购、停留等)借知识的目标。具体做法分两个模块:router 负责跨任务整合并广播知识,每个 CVR 任务再挂一个 transmitter 把 router 的表示翻译成自己能用的形式;外加一个 enhanced 模块保证迁移过来的知识不会盖过原任务的监督信号。和 SMES 那种走专家稀疏化的多任务路线不同,EKTM 的核心是把"知识传递"显式参数化,而不是让专家自己分化。线上 A/B 实测在某商业平台 eCPM +3.93%,已在两个主流量场景全量。
腾讯广告:注意力得分的频谱熵在正负样本上分布不同。 FEDIN: Frequency-Enhanced Deep Interest Network for Click-Through Rate Prediction (2605.01726) 的实证起点是一个具体观察:用户注意力分数的谱熵,在正样本和负样本上分布明显不同——真实兴趣表现为低熵的集中谱峰,无关行为表现为高熵噪声。基于此,作者在 DIN 主干外挂一条频域分支,做 target-aware 的谱滤波,把周期性兴趣信号筛出来。这条思路和 FMLP-Rec 那种"全 MLP 加可学习滤波"是同一个频域去噪流派,区别在 FMLP-Rec 是无条件滤波,FEDIN 把 target item 引入了滤波器条件。三个公开数据集上稳定超过 SOTA 序列基线,对噪声的鲁棒性有提升,代码已开源(github.com/otokoneko/FEDIN)。
Meta Ads:特征下线不再需要重训。 Intelligent Elastic Feature Fading: Enabling Model Retrain-Free Feature Efficiency Rollouts at Scale (2605.00324) 解的是大规模排序系统通常依赖几千个跨多时间窗口的行为特征、下线一个特征要走完整重训流程、迭代周期 3–6 个月、GPU 开销不小、rollout 吞吐受限的问题。IEFF 是一套生产侧基础设施,思路是不重训:在 serving 时弹性控制特征覆盖率和分布,让模型靠常规增量训练自己适应特征变化,从而把特征下线和模型重训解耦。系统配了安全护栏、可回滚机制和监控。落地数据:跨多个生产场景,效率类 rollout 提速 5×,重训相关 GPU 开销清零;离线和线上实验都显示,渐进式 fading 相比直接砍特征,可以阻止 50–55% 的线上效果衰减。 这篇是少见的把"特征生命周期管理"当成系统问题正面写的工业论文。
三篇加起来呈现的是同一个工业精排议程:模型本身不动大手术,先把多任务知识流、序列噪声、特征生命周期这些拖慢迭代或拉低指标的工程瓶颈分别拆掉,eCPM、噪声鲁棒性、rollout 吞吐都是可量化的抓手。

召回表示学习 — 层次结构、负采样与领域适配

本周召回侧三件互不重叠的工作:极坐标几何把"语义"和"层级"解耦写进 embedding;电商场景用结构化负样本撑起 late-interaction 训练;数学论文这种"无显式相似性"的领域则把"相关"重新定义为多 aspect。
IKEA:诚实归因负向 A/B。 Negative Data Mining for Contrastive Learning in Dense Retrieval at IKEA.com (2605.00353) 是工业侧唯一一篇。问题在 IKEA 商品搜索的 dense retrieval:随机负样本太软,人工标注又稀。基线是 late-interaction 召回架构(ColBERT 类)。本文做两件事:(1) 用商品分类树和属性结构化采样困难负样本——同父类不同子类、属性差一项的商品被优先选;(2) 用 LLM-as-a-judge 给查询-商品对全量打相关性分,替代稀疏人工标。离线在加拿大市场真实查询上类目准确率 +2.6%。 线上 A/B 是这篇的看点,但方向反常识——长尾 query A/B 用户互动指标无统计显著差异(p > 0.05)。作者把锅归到用户行为而非模型——67% 高频搜索的零点击率超过 50%,意思是这些 session 不管排得多好用户都不点。结论是 hard negative mining 离线收益真实,但当训练数据和离线评估脱离真实 query intent 分布和零点击模式时,离线提升搬不到线上。这种"工业方法 + 负向 A/B + 诚实归因"的论文比纯刷点的更值得读。
IIT Delhi:极坐标几何把语义和层级解耦。 Polaris: Coupled Orbital Polar Embeddings for Hierarchical Concept Learning (2605.00265) 处理层级表示学习的老问题:商品 taxonomy、医学本体、标签树天然非对称,欧氏空间或纯双曲都难同时编码"是什么"和"在哪一层"。Polaris 在极超球面上把两者拆开——角度编语义、半径编层级。具体做法:先把 latent 投到北极点切空间,做 exponential map 落到球面,再用 spherical linear layer 学单位范数表示。训练目标三件套:局部约束维持邻近关系、全局正则避免几何坍缩、不确定性感知的非对称目标推动方向上的"包含"关系。推理阶段用 structure-guided retrieval,先按层级缩小候选父节点再排序。实验跨三种结构:树状 taxonomy、多父 DAG、多模态层级。对比 14 个 baseline,top-K 检索最高提升约 19 个点,mean rank 最多降 60%。 和上面 IKEA 那篇放一起看有意思——IKEA 把 taxonomy 作为负采样信号塞进对比学习,Polaris 是把层级直接焊进表示空间几何。前者改训练信号、后者改空间结构,正交。
FIZ Karlsruhe / NII Tokyo / U. Göttingen:数学论文的"相关"是 aspect-driven 的。 Aspect-Aware Content-Based Recommendations for Mathematical Research Papers (2605.03861) 的起点是数学论文的"相关"和 CS、生物医学不一样:两篇相关论文之间常常文本重叠极少、引用也不重叠,靠的是共享证明技巧、逻辑蕴含或自然推广关系。直接拿 LLM embedding 做相似度因此效果差。方法分两步:先做专家驱动的分析得到结论——数学论文相关性是 aspect-driven 的、得按多个维度判定;然后构两套数据集 GoldRiM(专家标注,规模小)和 SilverRiM(自动构造,规模大),是该领域首批 aspect-aware CbRPR 数据集。模型 AchGNN 是 aspect-conditioned 异构 GNN,把三种信号联合建模:文本语义、引用结构、作者传承(author lineage)。对比纯 LLM embedding 和此前的 aspect-based baseline,AchGNN 在两个数据集所有 aspect 上一致更优。消融表明 author lineage 和图结构信号都是必要项。系统已部署在 MaRDI 平台。
把三篇连起来看,本周召回侧的共同动作是"重定义关系再设计模型"——Polaris 重定义层级几何、IKEA 重定义负样本结构、AchGNN 重定义"相关"本身。

值得关注的方向

Agentic Search 接口重构,从 top-k 撤离。 SIRA、DCI、T3 三篇本周一起出现,加上 OBLIQ-Bench 提供基准支点,构成一个明显的趋势信号:当 LLM agent 推理能力变强,top-k 相似度这一接口的"分辨率"变成新瓶颈。Meta Superintelligence Labs 已经在做训练免费的单发 BM25 替代多轮 agent;Texas A&M / Stanford / UWashington 等 19 作者直接让 agent 用 grep 调查语料,BrowseComp-Plus accuracy 从 69% 升到 80%;UC Berkeley 把 RAG 的 corpus 从文档换成思维链,AIME 上 Gemini-2.5-Flash +56.3%。如果做 agent 系统的检索层,这一周的论文构成的不是补丁式优化,而是接口选择题:top-k retriever 是不是 agent 系统的最佳接口形式。值得关注的应用前景包括 deep research agent、电商导购 agent 和企业知识库问答——这三类场景都符合"reasoning 强 + 接口粗"的诊断。
生成式推荐 SID 层的工业化深耕。 腾讯(微信视频号广告 + 地图)两篇本周同时给出 SID 工业化的两条路线——把商业价值、把地理坐标分别压进 tokenizer,配合 trie 树约束解码空间。UCSD × Snap 的理论工作把"为什么 GR 在长尾、价值对齐、空间约束上有结构性短板"讲清楚了——是 SID 解码树的概率耦合问题。短期看,所有想做生成式广告/电商/LBS 推荐的团队都需要面对的问题是:你的 SID 设计能不能编码业务约束(价值、地理、合规)。CapsID 提供的"软路由 + 变长 SID"方向是较低工程成本的起步选择,推断延迟只有 COBRA 的 51%。
工业精排进入"接口工程"阶段。 Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,是一个比模型结构改进更值钱的工程信号——意味着大型推荐系统的迭代瓶颈从模型转移到了"基础设施可回滚性"。同周华为 EKTM 把多任务知识流参数化、阿里淘天把 LLM 搬到端侧,三家都是在拆"模型外的迭代瓶颈"。这是给在大型推荐系统平台工作的工程师的明确信号:模型本身一两年没大变化,但围绕模型的特征生命周期、跨任务知识传递、端云推理切分这三件事会决定下一个迭代周期的速度。

本周论文速览

生成式推荐与 Semantic ID 演进

UniVA — 腾讯(微信视频号广告)在 SID/decoder/serving 三段同时注入 eCPM 信号;离线 Hit Rate@100 +37.04%、线上 GMV +1.5%。 GenPOI — 腾讯地图把语义 + 地理坐标编进 POI SID,配 proximity-aware constrained generation;在 1000 万级 POI 工业数据上优于现有 POI 检索基线。 Latte — UCSD × Snap Research 理论上证明自回归 SID 解码树会把语义近 item 概率耦合,token 前缀挂 latent 解决;NDCG@10 +3.45%。 CapsID — 学术(含 35M item 工业目录评估)用胶囊路由替代 RVQ 硬量化,SID 变长可变;Recall@10 相对 ReSID +9.6%,推断延迟仅为 COBRA 的 51%。

Agentic Search

SIRA — Meta Superintelligence Labs 把多轮 agent 检索压成单发加权 BM25,training-free;BEIR 8/10 数据集 Recall@10 最优,SciDocs +36% 相对。 DCI — Texas A&M / Stanford / UWashington 等 19 作者让 Claude Sonnet 4.6 用 grep + bash 直搜原始语料;BrowseComp-Plus 69.0% → 80.0%,API 成本 -29.4%。 ECom Multi-Agent Relevance — 字节跳动把电商搜索相关性闭环全员替换为 agent,主框架累计 SBS win-rate gain +12.38%/+9.78%/+7.28%/+8.9%/+10.17%,小语种迁移 +13%。 OBLIQ-Bench — MIT 提出"oblique query"基准(5 个长尾语料、Twitter/WildChat/Math/Writing/Congress),现有 BM25/dense/late interaction 在隐含意图查询上几乎全部 ≈0 NDCG@10。 T3 — UC Berkeley 把 RAG 的 corpus 从文档换成 LLM 思维链;AIME 2025-2026 上 Gemini-2.5-Flash +56.3%、GPT-OSS-120B +8.6%、GPT-5 +7.6%。

LLM 推荐的对齐与部署

RecGPT-Mobile — 阿里淘天把 next-query LLM 作为 intent agent 部署到手机端,在淘宝 Feed 推荐线上 A/B 显著提升准确性。 PA-Bridge — 字节跳动用主动 query 打破对话起点推荐回声室,分布对齐 + 语义离散化;Feature Penetration Rate +0.54%。 DynamicPO — 中科大 × 美团揭示多负样本 DPO 的"偏好优化坍塌",提出梯度抑制理论 + 边界负样本 + dual-margin β。 BLADE — 中科大 × 浙大用贝叶斯 list-wise alignment 替代静态 BoN,目标分布与模型共同进化。

工业精排

EKTM — 华为诺亚方舟把跨任务知识迁移参数化为 router/transmitter;线上 eCPM +3.93%、已全量。 FEDIN — 腾讯广告 × 清华深圳基于"注意力谱熵正负样本分布不同"的实证给 DIN 挂频域分支,target-aware 谱滤波。 IEFF — Meta Ads 在 serving 时弹性控制特征覆盖,特征效率类 rollout 提速 5×,重训 GPU 开销清零;阻止 50–55% 线上效果衰减。

召回表示学习

IKEA Hard-Neg — IKEA 用商品 taxonomy + LLM-as-judge 做结构化困难负样本;离线类目准确率 +2.6%,但长尾 query A/B 互动指标无显著差异(67% 高频搜索零点击率 > 50%)。 Polaris — IIT Delhi 在极超球面上角度编语义、半径编层级;对比 14 baseline,top-K 检索最高 +19 点,mean rank 最多降 60%。 AchGNN — FIZ Karlsruhe / NII Tokyo / U. Göttingen 在 MaRDI 平台部署 aspect-conditioned 异构 GNN,建模文本 + 引用 + 作者传承;首批 aspect-aware 数学论文推荐数据集(GoldRiM/SilverRiM)。

其他

TARDIS — 推理期精炼让冻结的扩散主干生成的合成表格数据接近/超越真实数据效用,长尾场景下尤为显著。 AutoRAGTuner — 声明式自动化 RAG 全流程:构建/执行/评估/优化一体化框架。 Production RAG Data Layer — 用 PostgreSQL+pgvector 统一数据层,针对生产 RAG 的数据陈旧、租户隔离、查询组合爆炸三大问题。
  • 推荐系统
  • 周报
  • 论文
  • AI 技术日报 - 2026-05-10AI周报 2026-W19
    Loading...