推荐周报 2026-W19 | Recsys Frontier

type

Post

status

Published

date

May 9, 2026 10:03

slug

rec-weekly-2026-W19

summary

本周 22 篇论文里能看出两条主线：生成式推荐继续在 Semantic ID 这一层做深耕，检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化（合成表格扩散、自动化 RAG 管线、生产级数据层），列入论文速览的"其他"部分。生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯（微信视频号广告）的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号，离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%；UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起，再给出在 token 前缀挂 latent 的低成本修补，NDCG@10 +3.45%。检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题：Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25；Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever，让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查（BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%）；UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹，AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench，把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训，效率类 rollout 提速 5×；阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端；中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是：算法侧追求"动态自适应目标"，工程侧追求"可回滚的弹性接口"。

本周概览

本周 22 篇论文里能看出两条主线：生成式推荐继续在 Semantic ID 这一层做深耕，检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化（合成表格扩散、自动化 RAG 管线、生产级数据层），列入论文速览的"其他"部分。

生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯（微信视频号广告）的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号，离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%；UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起，再给出在 token 前缀挂 latent 的低成本修补，NDCG@10 +3.45%。

检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题：Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25；Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever，让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查（BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%）；UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹，AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench，把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。

工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训，效率类 rollout 提速 5×；阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端；中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是：算法侧追求"动态自适应目标"，工程侧追求"可回滚的弹性接口"。

生成式推荐与 Semantic ID 演进

本周四篇论文把 SID 这一层拆开来打。两篇工业论文把"商业价值"和"地理空间"压进 tokenizer，一篇学术论文从理论上指出 SID 树结构带来的概率耦合，一篇工程向论文用胶囊路由替换硬量化。共同的潜台词：自回归 GR 的天花板正越来越明显地落在 tokenizer 上。

腾讯微信视频号广告：把价值对齐写进 SID 解码空间。 Unified Value Alignment for Generative Recommendation in Industrial Advertising (2605.05803) 直面广告 GR 的特殊困难——不仅要对齐用户兴趣，还要对齐 eCPM。现有 GR 链路 tokenization、decoding、serving 三段都偏语义，价值信号塞不进去。UniVA 把价值信号同时打进三段：tokenizer 阶段引入 Commercial SID，把价值相关属性注入 SID 构造，得到价值可分的 item 表征；decoder 阶段做 Generation-as-Ranking，用监督学习 + eCPM-aware RL 联合训练，把价值分直接融进 next-item SID 生成的 logits，一次解码同时完成生成与排序；serving 阶段把上一步的 logits 当线上 value guidance，配合个性化 trie 树把解码空间约束到本次请求合法的 SID 路径上。关键数字： 离线 Hit Rate@100 相对 baseline +37.04%，微信视频号广告线上 A/B GMV +1.5%。横向看，同来自腾讯系的 LEADRE 在视频号上的 GMV lift 是 1.57%，量级相当；UniVA 的差异是把价值对齐从外部排序模块迁回到 GR 内部解码空间——decoder 自身就是价值感知的 ranker，少了一段独立精排。

腾讯地图：地理坐标进 SID。 Revisiting General Map Search via Generative Point-of-Interest Retrieval (2605.03397) 处理的痛点是地图搜索 query 表面语义不足，且强依赖空间上下文。传统检索做表层语义匹配会漏，纯 LLM 又生成出地图上不存在的 POI。GenPOI 把异构搜索上下文与 POI 统一组织成结构化序列，交给 LLM 做空间感知的候选生成。SID 设计上引入 Geo-Semantic POI Tokenization，把语义和地理坐标信息一起编进每个 POI 的 token 序列；解码侧用 proximity-aware constrained generation，把 LLM 的解码空间限制在 query 周围的合法 POI 上。在腾讯地图 1000 万级 POI 工业数据上效果优于现有 POI 检索基线。和早期把 POI 直接转成 SID 的做法（如 GNPR-SID）相比，GenPOI 的差别是把地理坐标显式纳入 token，并通过 trie 式约束让生成结果不会跳出合理空间范围。

UCSD × Snap：理论上指出 SID 解码树的概率耦合。 Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation (2605.06331) 是学术侧第一次从理论角度回答"为什么 GR 在 SID 层会把语义近的 item 挤到一起"。作者把 token-by-token 解码看成在 SID 诱导的解码树上做 traversal，叶子节点是候选 item。观察是 GR 给同一用户的 item 概率与树结构强耦合——树上邻近的 item 概率几乎一样，user-specific 偏好分辨不开。文章进一步证明这种结构相关性会让 GR 表达不了一些简单的协同过滤模式，CF 模型却能轻松拟合。方法叫 Latte：在每个 SID token 之前注入一个 latent token，把单棵解码树重塑成多棵 latent-token 条件下的子树，每个 item 在不同子树上的"距离"不一样。指标： NDCG@10 平均相对 +3.45%，code 已开源。和 LLaDA-Rec 这类直接换掉自回归走离散扩散并行解码的方案相比，Latte 是最小侵入的修补——结构上还是自回归，只在 token 序列前缀挂 latent，工程成本低很多。

CapsID：胶囊路由替代硬量化，SID 变长。 CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation (2605.05096) 观点直接：GR 的瓶颈不在 Transformer，在 tokenizer。RVQ 每层硬最近邻分配在簇边界把多面语义截断，早期错误一路传到后面 SID 位。CapsID 直接换掉硬量化：每层用胶囊路由，item 以概率分配到多个语义胶囊，残差用路由后的重建更新而不是单一胜出码，活跃胶囊置信度足够高时 SID 就提前终止——SID 因此变长可变。在此之上，SemanticBPE 把相邻 SID token 按共现 + embedding 兼容度合成可复用的子词。在 Amazon Beauty/Sports/Toys 三个公开集和一个 35M item 工业目录上跑：相对最强单一表征基线 ReSID，Recall@10 平均 +9.6%；与 COBRA 这类稀疏-稠密混合系统相比，公开 benchmark 上指标持平或更好，推断延迟只有它的 51%。消融显示软路由、迭代一致性、置信度驱动长度三件事独立贡献，长尾 item 上增益最大。

四篇放在一起，趋势是把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 SID 本身，而不是在 Transformer 解码端打补丁。SID 这一层正在从"item 的指针"变成"item 多视角属性的压缩编码"。

Agentic Search — 从相似度检索到推理式检索

本周五篇论文集中拆掉了一个长期被默认的接口：top-k 相似度。共同的诊断是单步召回在隐性意图、稀疏线索、结构约束下漏得太多，下游再强的推理也补不回来。分歧在补丁打在哪儿——SIRA 用一发 BM25 替代多轮探索；ByteDance 把整个相关性闭环交给 agent；DCI 干脆把 grep 当检索器；OBLIQ-Bench 把这套问题量化成新基准；T3 则把"被检索物"从文档换成思维链。

字节跳动 TikTok Shop：让 agent 全员替换电商搜索相关性闭环。 A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance (2605.05991) 是工业侧最完整的一篇。问题是电商搜索相关性的优化在线下是一个由用户、PM、标注员、算法、评估员组成的闭环，每一段都依赖人。框架由三个 agent 组成：Annotator Agent 做多轮标注（基于内部 GRM 生成式相关性模型）、Optimizer Agent 自主分析 bad case 并改模型、User Agent 用对话方式从线上流量里挖 bad case，三者闭环自演化。配套 harness 工程层包括统一召排相关性模型、指令跟随式相关性模型、Global Memory、Deep Search Agent。数字密度极高，全部以 SBS（side-by-side）win-rate gain 在线累计： LLM Annotator +12.38%、GRM-based selection +9.78%、Agentic Optimizer +7.28%、User-Annotator 对话 +8.9%、Automated Pipeline +10.17%；Harness 层再叠加 All-In-One LLM +4.56%、Instruction-Following +3.94%、Global Memory +2.92%、Deep Search +5.84%；同样的策略迁移到一个小语种市场后累计 SBS +13%。这是一篇把 agent 框架和工业相关性流水线深度耦合的样本——所有提升都以"在前一版上线策略上的累计增量"汇报，而不是离线指标。

Meta Superintelligence Labs：把多轮 agentic 检索压成一次 BM25。 Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval (2605.06647) 把矛头对准多轮 agentic 检索本身。SIRA 的诊断是当前 retrieval agent 像新手翻不熟的资料库——发探索 query、读片段、改 query，多轮放大延迟和成本。它的反命题是把多轮探索压成一次"corpus-discriminative"检索：不问"什么词与 query 相关"，问"什么词能把目标证据从语料级 confuser 里切开"。具体三件事：corpus 侧让 LLM 离线给每篇文档补充缺失的检索词；query 侧让 LLM 预测 query 漏掉的证据词；用 document-frequency 作为 tool call 把太常见、太罕见或不会拉开 margin 的扩展词剪掉；最终一次加权 BM25 把原 query 和验证后的扩展拼起来。LLM 用一个开源 MoE 模型（Qwen3 系列、约 3B 激活参数、frozen），完全 training-free、无需 retriever 微调、无 embedding index。10 个 BEIR 数据集 + 下游 QA 上 Recall@10 在 8/10 取得最优； SciDocs +36% 相对、CQADupStack +23% 相对。作为"训练免费、单轮 BM25"，它直接挑战了 dense 检索 + 多轮 agent 这条主流路线——把检索的 cognition 全部前置到 LLM 一次写出的 query expansion。

DCI：把 retriever 整个删掉，agent 用 grep 直接调查语料。 Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction (2605.05242) 立场比 SIRA 更激进：把 retriever 整个删掉。Direct Corpus Interaction（DCI）让 agent 用通用 terminal 工具——grep、文件读、shell 命令、轻量脚本——直接搜原始语料，没有 embedding 模型、没有向量索引、没有 retrieval API、没有离线索引。论点是 top-k 相似度接口的"分辨率"太粗，掩盖了精确词约束、稀疏线索合取、局部上下文核验、多步假设修正这些 agentic 操作。DCI-Agent-CC 用 Claude Sonnet 4.6（据 BrowseComp-Plus 实验）：把 Qwen3-Embedding-8B 检索工具换成 DCI，accuracy 从 69.0% 升到 80.0%（+11.0pp），同时 API 成本从 $1,440 降到 $1,016（-29.4%）； 比最强 retrieval baseline GPT-5 + Qwen3-Embedding-8B（71.7%）再高 +8.3pp；Multi-hop QA 6 个数据集平均 accuracy 83.0，比最强 retrieval-agent baseline +30.7pp；IR ranking 平均 NDCG@10 68.5，比最强 baseline +21.5pp。轻量版 DCI-Agent-Lite 只用 GPT-5.4 nano + bash + read，在六个数据集上仍是 Top-2。

MIT：用 OBLIQ-Bench 量化"为什么必须改接口"。 OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries (2605.06235) 把 SIRA、DCI 这套问题给出了 benchmark 支点。作者定义了一类 oblique query：判定相关性的属性是潜在的、在文档表面没有显式表达——比如找所有"用嘲讽口吻表达隐含立场的推文"、"展示某种失败模式的对话日志"。OBLIQ-Bench 由五个长尾语料上的检索任务组成（Twitter-Conflict、WildChat Errors、Math Meta Program、Writing-Style、Congress Hearings）。核心实验暴露的是 retrieval-verification 不对称：reasoning LLM 在小 batch 内可以稳定识别 oblique 相关性，但 BM25、dense、late interaction、agentic pipeline 几乎全部接近 0 NDCG@10。 例：Writing-Style 上 BM25 在 rank 10 完全找不到目标，dense embedding 远低于 reasoning LLM 的 oracle 表现，反倒是 149M 参数的 LateOn 这种多向量后期交互模型表现相对较好——支持了"局部对齐比全局相似度重要"的假设。论文还构造了 Oracle GPT-5.2 Tournament——在大池硬 distractor 上做锦标赛式 listwise rerank——证明信号其实存在，只是被相似度接口屏蔽。这篇是给 SIRA 与 DCI 提供"为什么必须改接口"的实证支点：现有 benchmark（MS MARCO、BEIR、MTEB、BRIGHT）饱和不是因为 IR 解决了，而是因为 benchmark 不够 oblique。

UC Berkeley：把 RAG 的 corpus 换成思维链。 RAG over Thinking Traces Can Improve Reasoning Tasks (2605.03344) 把 agentic search 的 corpus 换了对象。常识是 RAG 对 math/code 这类 reasoning-intensive 任务帮助有限，作者反驳：限制不在 RAG，而在语料选择。方法是不检索文档，而检索"thinking traces"——LLM 解题时产生的中间思维轨迹。T3 是一个离线方法，把这些 trace 重写成结构化的、便于检索的形式（例如把 trace 拆成断言/反驳/中间结论的紧凑表征）。下游用最简单的 retrieve-then-generate，没有重新训练。数字最锋利的对比在 AIME 2025-2026：用 Gemini-2-thinking 生成的 trace 作为 corpus，Gemini-2.5-Flash +56.3%、GPT-OSS-120B +8.6%、GPT-5 +7.6%——用更小或更老模型生成的 trace 给更新更强模型注水仍然有效。 LiveCodeBench 与 GPQA-Diamond 上同样一致提升。推断成本基本不增加，T3 还能把推理成本降低最多 15%。代码已开源（github.com/Narabzad/t3）。

五篇放一起，趋势是把检索从单步相似度盒子拆成两个独立轴：corpus interface（top-k vs. 单发 BM25 vs. 终端工具）和 corpus content（文档 vs. 思维链 vs. 案例库）。Top-k embedding 在这两个轴上都只占一个角落。

LLM 推荐的对齐与部署

本周这条线四篇都在解决"LLM4Rec 怎么落地"的两个具体痛点：训练侧 token-level loss 怎么改成列表/边界级目标，部署侧端云分工和分布外查询怎么处理。三篇是工业系统（淘宝端侧、字节对话、美团 DPO），一篇 USTC × 浙大学术。

阿里淘天：把意图理解 LLM 压到手机端。 RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation (2605.04726) 把 next-query prediction 的 LLM 从云端搬到手机本地。原方案是云上大模型生成下一查询、再回流到推荐链路，链路长且推理开销受调用预算限制。RecGPT-Mobile 设计的是端侧轻量 LLM 作为 intent understanding agent，监听用户在 App 内的近期交互行为，本地推断下一搜索意图并实时调整 feed 推荐结果。核心约束是手机上的算力和内存——文章定位是给生产级推荐系统在移动端部署 LLM 探一条工程路径，强调 next-query prediction 是这条路上首个可规模化的落点。线上 A/B 显示推荐结果准确性显著提升，离线分析也确认能更快捕捉用户兴趣演化。这个方向与历史上的 RecGPT 主线（云端十亿级参数、淘宝"猜你喜欢"全量上线）形成端云分工——云端继续做长链路意图建模，端侧做高频实时反应。

字节跳动：用主动 query 打破对话起点推荐的回声室。 Bridging Passive and Active: Enhancing Conversation Starter Recommendation via Active Expression Modeling (2605.05855) 处理的是对话式搜索里的"会话起点推荐"问题——此前依赖经典曝光-点击闭环训练，结果是回声室：起点推荐越来越收敛到热门、通用的问句，无法跟上开放世界意图分布。本文的关键观察是用户的主动手输 query 已经穿过菜单、直接表达开放世界意图，是打破闭环的天然信号。难点有两个：被动起点和主动 query 之间存在分布偏移；主动 query 是开放文本，传统基于 item ID 的热门度统计在大规模工业流式训练里失效。PA-Bridge 框架两件事——一个对抗式分布对齐器把主动表达的分布拉到被动起点空间；一个语义离散器把开放文本变成可统计 ID-able 单元，从而让经典的热门度去偏算法能在流式训练上跑起来。线上 A/B：Feature Penetration Rate +0.54%、User Active Days 提升。 架构上是工业流式推荐和 LLM 时代对话式搜索的衔接层，没有引入新的 LLM 推理开销。

中科大 × 美团：揭示多负样本 DPO 的"偏好优化坍塌"。 DynamicPO: Dynamic Preference Optimization for Recommendation (2605.00327) 切的是 DPO 在推荐里的"负样本越多反而越差"现象。作者把这个现象命名为 preference optimization collapse：训练 loss 持续下降，但推荐指标退化。理论上的解释是梯度抑制——大量易判别负样本（很容易被模型拉开距离）在梯度里占主导，把决策边界附近真正定义偏好分界的"边界负样本"的梯度信号压住了。DynamicPO 是一个轻量 plug-and-play 框架，两个自适应机制：Dynamic Boundary Negative Selection 在每一步识别并优先采用接近当前模型决策边界的负样本；Dual-Margin Dynamic β Adjustment 按样本边界模糊度逐样本调节优化强度（DPO 里的 β 不再全局固定）。三个公开数据集上都防住了 collapse，显著提升多负样本 DPO 系列方法的精度，且额外计算开销可忽略。

中科大 × 浙大：贝叶斯 list-wise alignment 替代静态 BoN。 Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation (2605.04559) 直面 LLM4Rec 现有训练目标基本是 token-level、难以直接优化 NDCG/Fairness 这类列表级、不可微目标的问题。Best-of-N（BoN）推理时直接对这些指标做选择，效果好但代价大无法上线。BoN Alignment 路线是把 BoN 的搜索能力蒸到模型里——但目前方法两个毛病：Indiscriminate Supervision，静态参考分布无法区分超出经验范围的候选间相对优劣；Gradient Decay，模型变强后有效监督信号迅速衰减。BLADE 用贝叶斯框架持续更新目标分布——历史先验和当前 rollout 给出的动态证据融合，构造一个随模型能力共同进化的 self-evolving target。三个真实数据集上一致超过 SOTA 基线；关键是打破了 BoN Alignment 的静态性能上限——Recall、NDCG 这类排序精度和 Fairness、Diversity 这类列表级指标都获得持续增益。代码 github.com/RegionCh/BLADE。

把四篇放一起看，训练侧两篇都在拒绝静态目标——BLADE 让目标分布跟模型一起进化，DynamicPO 让负样本权重跟边界距离动态调整；部署侧两篇都在重构 LLM 与推荐链路的接口——RecGPT-Mobile 把推理放到端侧换实时性，PA-Bridge 把开放文本主动表达喂回流式推荐管道。

工业精排 — 多任务、特征效率与频域建模

本周三篇精排论文都来自工业线，关注的不是模型结构本身，而是工程化痛点：CVR 数据稀疏、用户行为序列里的噪声、以及特征下线还要不要重训。三家给出了三种思路。

华为诺亚方舟：跨任务知识迁移缓解 CVR 训练样本稀疏。 Effective Knowledge Transfer for Multi-Task Recommendation Models (2605.05730) 把 CVR 当成可以从其他用户行为（点击、加购、停留等）借知识的目标。具体做法分两个模块：router 负责跨任务整合并广播知识，每个 CVR 任务再挂一个 transmitter 把 router 的表示翻译成自己能用的形式；外加一个 enhanced 模块保证迁移过来的知识不会盖过原任务的监督信号。和 SMES 那种走专家稀疏化的多任务路线不同，EKTM 的核心是把"知识传递"显式参数化，而不是让专家自己分化。线上 A/B 实测在某商业平台 eCPM +3.93%，已在两个主流量场景全量。

腾讯广告：注意力得分的频谱熵在正负样本上分布不同。 FEDIN: Frequency-Enhanced Deep Interest Network for Click-Through Rate Prediction (2605.01726) 的实证起点是一个具体观察：用户注意力分数的谱熵，在正样本和负样本上分布明显不同——真实兴趣表现为低熵的集中谱峰，无关行为表现为高熵噪声。基于此，作者在 DIN 主干外挂一条频域分支，做 target-aware 的谱滤波，把周期性兴趣信号筛出来。这条思路和 FMLP-Rec 那种"全 MLP 加可学习滤波"是同一个频域去噪流派，区别在 FMLP-Rec 是无条件滤波，FEDIN 把 target item 引入了滤波器条件。三个公开数据集上稳定超过 SOTA 序列基线，对噪声的鲁棒性有提升，代码已开源（github.com/otokoneko/FEDIN）。

Meta Ads：特征下线不再需要重训。 Intelligent Elastic Feature Fading: Enabling Model Retrain-Free Feature Efficiency Rollouts at Scale (2605.00324) 解的是大规模排序系统通常依赖几千个跨多时间窗口的行为特征、下线一个特征要走完整重训流程、迭代周期 3–6 个月、GPU 开销不小、rollout 吞吐受限的问题。IEFF 是一套生产侧基础设施，思路是不重训：在 serving 时弹性控制特征覆盖率和分布，让模型靠常规增量训练自己适应特征变化，从而把特征下线和模型重训解耦。系统配了安全护栏、可回滚机制和监控。落地数据：跨多个生产场景，效率类 rollout 提速 5×，重训相关 GPU 开销清零；离线和线上实验都显示，渐进式 fading 相比直接砍特征，可以阻止 50–55% 的线上效果衰减。这篇是少见的把"特征生命周期管理"当成系统问题正面写的工业论文。

三篇加起来呈现的是同一个工业精排议程：模型本身不动大手术，先把多任务知识流、序列噪声、特征生命周期这些拖慢迭代或拉低指标的工程瓶颈分别拆掉，eCPM、噪声鲁棒性、rollout 吞吐都是可量化的抓手。

召回表示学习 — 层次结构、负采样与领域适配

本周召回侧三件互不重叠的工作：极坐标几何把"语义"和"层级"解耦写进 embedding；电商场景用结构化负样本撑起 late-interaction 训练；数学论文这种"无显式相似性"的领域则把"相关"重新定义为多 aspect。

IKEA：诚实归因负向 A/B。 Negative Data Mining for Contrastive Learning in Dense Retrieval at IKEA.com (2605.00353) 是工业侧唯一一篇。问题在 IKEA 商品搜索的 dense retrieval：随机负样本太软，人工标注又稀。基线是 late-interaction 召回架构（ColBERT 类）。本文做两件事：(1) 用商品分类树和属性结构化采样困难负样本——同父类不同子类、属性差一项的商品被优先选；(2) 用 LLM-as-a-judge 给查询-商品对全量打相关性分，替代稀疏人工标。离线在加拿大市场真实查询上类目准确率 +2.6%。 线上 A/B 是这篇的看点，但方向反常识——长尾 query A/B 用户互动指标无统计显著差异（p > 0.05）。作者把锅归到用户行为而非模型——67% 高频搜索的零点击率超过 50%，意思是这些 session 不管排得多好用户都不点。结论是 hard negative mining 离线收益真实，但当训练数据和离线评估脱离真实 query intent 分布和零点击模式时，离线提升搬不到线上。这种"工业方法 + 负向 A/B + 诚实归因"的论文比纯刷点的更值得读。

IIT Delhi：极坐标几何把语义和层级解耦。 Polaris: Coupled Orbital Polar Embeddings for Hierarchical Concept Learning (2605.00265) 处理层级表示学习的老问题：商品 taxonomy、医学本体、标签树天然非对称，欧氏空间或纯双曲都难同时编码"是什么"和"在哪一层"。Polaris 在极超球面上把两者拆开——角度编语义、半径编层级。具体做法：先把 latent 投到北极点切空间，做 exponential map 落到球面，再用 spherical linear layer 学单位范数表示。训练目标三件套：局部约束维持邻近关系、全局正则避免几何坍缩、不确定性感知的非对称目标推动方向上的"包含"关系。推理阶段用 structure-guided retrieval，先按层级缩小候选父节点再排序。实验跨三种结构：树状 taxonomy、多父 DAG、多模态层级。对比 14 个 baseline，top-K 检索最高提升约 19 个点，mean rank 最多降 60%。 和上面 IKEA 那篇放一起看有意思——IKEA 把 taxonomy 作为负采样信号塞进对比学习，Polaris 是把层级直接焊进表示空间几何。前者改训练信号、后者改空间结构，正交。

FIZ Karlsruhe / NII Tokyo / U. Göttingen：数学论文的"相关"是 aspect-driven 的。 Aspect-Aware Content-Based Recommendations for Mathematical Research Papers (2605.03861) 的起点是数学论文的"相关"和 CS、生物医学不一样：两篇相关论文之间常常文本重叠极少、引用也不重叠，靠的是共享证明技巧、逻辑蕴含或自然推广关系。直接拿 LLM embedding 做相似度因此效果差。方法分两步：先做专家驱动的分析得到结论——数学论文相关性是 aspect-driven 的、得按多个维度判定；然后构两套数据集 GoldRiM（专家标注，规模小）和 SilverRiM（自动构造，规模大），是该领域首批 aspect-aware CbRPR 数据集。模型 AchGNN 是 aspect-conditioned 异构 GNN，把三种信号联合建模：文本语义、引用结构、作者传承（author lineage）。对比纯 LLM embedding 和此前的 aspect-based baseline，AchGNN 在两个数据集所有 aspect 上一致更优。消融表明 author lineage 和图结构信号都是必要项。系统已部署在 MaRDI 平台。

把三篇连起来看，本周召回侧的共同动作是"重定义关系再设计模型"——Polaris 重定义层级几何、IKEA 重定义负样本结构、AchGNN 重定义"相关"本身。

值得关注的方向

Agentic Search 接口重构，从 top-k 撤离。 SIRA、DCI、T3 三篇本周一起出现，加上 OBLIQ-Bench 提供基准支点，构成一个明显的趋势信号：当 LLM agent 推理能力变强，top-k 相似度这一接口的"分辨率"变成新瓶颈。Meta Superintelligence Labs 已经在做训练免费的单发 BM25 替代多轮 agent；Texas A&M / Stanford / UWashington 等 19 作者直接让 agent 用 grep 调查语料，BrowseComp-Plus accuracy 从 69% 升到 80%；UC Berkeley 把 RAG 的 corpus 从文档换成思维链，AIME 上 Gemini-2.5-Flash +56.3%。如果做 agent 系统的检索层，这一周的论文构成的不是补丁式优化，而是接口选择题：top-k retriever 是不是 agent 系统的最佳接口形式。值得关注的应用前景包括 deep research agent、电商导购 agent 和企业知识库问答——这三类场景都符合"reasoning 强 + 接口粗"的诊断。

生成式推荐 SID 层的工业化深耕。 腾讯（微信视频号广告 + 地图）两篇本周同时给出 SID 工业化的两条路线——把商业价值、把地理坐标分别压进 tokenizer，配合 trie 树约束解码空间。UCSD × Snap 的理论工作把"为什么 GR 在长尾、价值对齐、空间约束上有结构性短板"讲清楚了——是 SID 解码树的概率耦合问题。短期看，所有想做生成式广告/电商/LBS 推荐的团队都需要面对的问题是：你的 SID 设计能不能编码业务约束（价值、地理、合规）。CapsID 提供的"软路由 + 变长 SID"方向是较低工程成本的起步选择，推断延迟只有 COBRA 的 51%。

工业精排进入"接口工程"阶段。 Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训，是一个比模型结构改进更值钱的工程信号——意味着大型推荐系统的迭代瓶颈从模型转移到了"基础设施可回滚性"。同周华为 EKTM 把多任务知识流参数化、阿里淘天把 LLM 搬到端侧，三家都是在拆"模型外的迭代瓶颈"。这是给在大型推荐系统平台工作的工程师的明确信号：模型本身一两年没大变化，但围绕模型的特征生命周期、跨任务知识传递、端云推理切分这三件事会决定下一个迭代周期的速度。

本周论文速览

生成式推荐与 Semantic ID 演进

UniVA — 腾讯（微信视频号广告）在 SID/decoder/serving 三段同时注入 eCPM 信号；离线 Hit Rate@100 +37.04%、线上 GMV +1.5%。 GenPOI — 腾讯地图把语义 + 地理坐标编进 POI SID，配 proximity-aware constrained generation；在 1000 万级 POI 工业数据上优于现有 POI 检索基线。 Latte — UCSD × Snap Research 理论上证明自回归 SID 解码树会把语义近 item 概率耦合，token 前缀挂 latent 解决；NDCG@10 +3.45%。 CapsID — 学术（含 35M item 工业目录评估）用胶囊路由替代 RVQ 硬量化，SID 变长可变；Recall@10 相对 ReSID +9.6%，推断延迟仅为 COBRA 的 51%。

Agentic Search

SIRA — Meta Superintelligence Labs 把多轮 agent 检索压成单发加权 BM25，training-free；BEIR 8/10 数据集 Recall@10 最优，SciDocs +36% 相对。 DCI — Texas A&M / Stanford / UWashington 等 19 作者让 Claude Sonnet 4.6 用 grep + bash 直搜原始语料；BrowseComp-Plus 69.0% → 80.0%，API 成本 -29.4%。 ECom Multi-Agent Relevance — 字节跳动把电商搜索相关性闭环全员替换为 agent，主框架累计 SBS win-rate gain +12.38%/+9.78%/+7.28%/+8.9%/+10.17%，小语种迁移 +13%。 OBLIQ-Bench — MIT 提出"oblique query"基准（5 个长尾语料、Twitter/WildChat/Math/Writing/Congress），现有 BM25/dense/late interaction 在隐含意图查询上几乎全部 ≈0 NDCG@10。 T3 — UC Berkeley 把 RAG 的 corpus 从文档换成 LLM 思维链；AIME 2025-2026 上 Gemini-2.5-Flash +56.3%、GPT-OSS-120B +8.6%、GPT-5 +7.6%。

LLM 推荐的对齐与部署

RecGPT-Mobile — 阿里淘天把 next-query LLM 作为 intent agent 部署到手机端，在淘宝 Feed 推荐线上 A/B 显著提升准确性。 PA-Bridge — 字节跳动用主动 query 打破对话起点推荐回声室，分布对齐 + 语义离散化；Feature Penetration Rate +0.54%。 DynamicPO — 中科大 × 美团揭示多负样本 DPO 的"偏好优化坍塌"，提出梯度抑制理论 + 边界负样本 + dual-margin β。 BLADE — 中科大 × 浙大用贝叶斯 list-wise alignment 替代静态 BoN，目标分布与模型共同进化。

工业精排

EKTM — 华为诺亚方舟把跨任务知识迁移参数化为 router/transmitter；线上 eCPM +3.93%、已全量。 FEDIN — 腾讯广告 × 清华深圳基于"注意力谱熵正负样本分布不同"的实证给 DIN 挂频域分支，target-aware 谱滤波。 IEFF — Meta Ads 在 serving 时弹性控制特征覆盖，特征效率类 rollout 提速 5×，重训 GPU 开销清零；阻止 50–55% 线上效果衰减。

召回表示学习

IKEA Hard-Neg — IKEA 用商品 taxonomy + LLM-as-judge 做结构化困难负样本；离线类目准确率 +2.6%，但长尾 query A/B 互动指标无显著差异（67% 高频搜索零点击率 > 50%）。 Polaris — IIT Delhi 在极超球面上角度编语义、半径编层级；对比 14 baseline，top-K 检索最高 +19 点，mean rank 最多降 60%。 AchGNN — FIZ Karlsruhe / NII Tokyo / U. Göttingen 在 MaRDI 平台部署 aspect-conditioned 异构 GNN，建模文本 + 引用 + 作者传承；首批 aspect-aware 数学论文推荐数据集（GoldRiM/SilverRiM）。

其他

TARDIS — 推理期精炼让冻结的扩散主干生成的合成表格数据接近/超越真实数据效用，长尾场景下尤为显著。 AutoRAGTuner — 声明式自动化 RAG 全流程：构建/执行/评估/优化一体化框架。 Production RAG Data Layer — 用 PostgreSQL+pgvector 统一数据层，针对生产 RAG 的数据陈旧、租户隔离、查询组合爆炸三大问题。