本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。 生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。 检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。 工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。
本周 32 篇论文里有几条主线在同时推进。一是生成式推荐范式继续在工业链路里深挖——快手一家就贡献三篇,从 list-wise 重排到召回-排序统一再到 codebook 自适应,配合美团/英伟达的 KV cache serving 和华为的 RL 信号修复,把"生成式推荐能用,但 serving、RL、inference 顶不住"这条线一次性补齐。二是 LLM 推荐器的训练目标被拆开重做——Google 在 H-consistency 框架下证明 DPO 标准代理损失不一致并提出 SA-DPO,Meta 证明 GRPO+二元奖励等价于 AUC 优化并提出 Windowed Partial AUC,配合美团的潜在推理多因子分解和稀疏场景下"对齐够不够"的争论,质疑了"一个对齐目标走到底"的主流做法。三是 LLM 智能体在推荐系统的角色边界正在收敛——LinkedIn 的 schema-aligned 长期语义记忆、AgenticRecTune 的多智能体配置调优、Snap 的端到端趋势检测,三个工业落地都把 LLM 放在配置/记忆/趋势这类延迟不敏感、语义价值高的位置上,绕开了精排召回的实时性瓶颈。 基础设施侧 Meta 同时放出两篇系统论文——一篇 versioned late materialization 砍训练数据冗余,一篇 FreeScale 砍 256 卡分布式的计算气泡,明确支撑 HSTU/ULTRA-HSTU 的序列长度激进 scaling。LLM-检索-重排链路上则形成明显的"压缩派"共识:ResRank 把 passage 压成单 token、UAE 把 utility 信号蒸馏进 embedding、RRK 用多 token 压缩,统一指向"把推理预算从过 LLM 生成压到过一次相似度"。