推荐周报 2026-W16 | Recsys Frontier

type

Post

status

Published

date

Apr 19, 2026 03:47

slug

rec-weekly-2026-W16

summary

本周 17 篇推荐系统论文里，工业界把线上实际部署作为论证工具，三条技术主线非常清楚。第一条线是生成式推荐落地的工程化转向。京东 GenRec 在 JD App 跑了一个月 A/B，点击 +9.5%、成交 +8.7%。UniRec 把属性 token 显式注入 SID 解码，HR@50 比最强 baseline 再提 22.6%。字节 R3-VAE 在头条线上拿到 MRR +1.62%，同时把 CTR 模型的内容冷启提高 15.36%。三篇放一起看，生成式召回已经从"能不能跑通"转到"怎么把 prefill 成本压下来、怎么让 RL 训练稳定、怎么在训练期就评估 SID 质量"这些具体工程问题。第二条线是基础模型不再硬上线。 Meta 的 SOLARIS 把 foundation model 异步预计算、offload 出关键路径，广告系统 top-line revenue +0.67%；Meta 的 Hierarchical Indexing 把扁平索引换成可学习层级结构，支撑 Facebook/Instagram 数十亿日活广告召回；字节 IAT 把单次交互压成 instance token、让下游继续用便宜的标准模型。蒸馏不再是默认解，工业界开始拆解 serving 关键路径。第三条线是 LLM 的产出物从"推荐结果"退到"中间件"。本周 LLM 相关的 4 篇——SAGER、local-life agentic reasoning、DUET、SemaCDR——都不让 LLM 直接出分数，而是让它输出 per-user policy skill、可验证推理链、可训练 profile、可迁移语义特征。这是对"LLM 直接当排序器"路线的集体回调。

本周概览

本周 17 篇推荐系统论文里，工业界把线上实际部署作为论证工具，三条技术主线非常清楚。

第一条线是生成式推荐落地的工程化转向。 京东 GenRec 在 JD App 跑了一个月 A/B，点击 +9.5%、成交 +8.7%。UniRec 把属性 token 显式注入 SID 解码，HR@50 比最强 baseline 再提 22.6%。字节 R3-VAE 在头条线上拿到 MRR +1.62%，同时把 CTR 模型的内容冷启提高 15.36%。三篇放一起看，生成式召回已经从"能不能跑通"转到"怎么把 prefill 成本压下来、怎么让 RL 训练稳定、怎么在训练期就评估 SID 质量"这些具体工程问题。

第二条线是基础模型不再硬上线。 Meta 的 SOLARIS 把 foundation model 异步预计算、offload 出关键路径，广告系统 top-line revenue +0.67%；Meta 的 Hierarchical Indexing 把扁平索引换成可学习层级结构，支撑 Facebook/Instagram 数十亿日活广告召回；字节 IAT 把单次交互压成 instance token、让下游继续用便宜的标准模型。蒸馏不再是默认解，工业界开始拆解 serving 关键路径。

第三条线是 LLM 的产出物从"推荐结果"退到"中间件"。 本周 LLM 相关的 4 篇——SAGER、local-life agentic reasoning、DUET、SemaCDR——都不让 LLM 直接出分数，而是让它输出 per-user policy skill、可验证推理链、可训练 profile、可迁移语义特征。这是对"LLM 直接当排序器"路线的集体回调。

Semantic ID 与生成式推荐

本周五篇都绕着同一个核心问题：SID 既要跑得起大规模线上流量，又要把生成式范式的表达力补齐到判别式模型的水平。工业侧集中火力解决 SID 输入过长、reward hacking、码本坍塌、"生成式只能看 ID 不能看特征"这几个老问题；学术侧继续在 VAE 训练稳定性和 SID 质量评估上做文章。本章还纳入了一篇 web 搜索场景的 AuthGR——它不是推荐，但其"把权威性信号塞进生成式解码"的路线对推荐 GR 可信度建模有直接迁移价值。

GenRec (2604.14878) — 京东 (JD) 的这篇是本周唯一一篇把生成式召回推到月级别线上 A/B 的工业论文，要在 JD App 解决三件具体事：分页请求下同一 query 多次调用产生不一致结果、多 token SID 让长行为序列 prefill 成本爆炸、生成策略和用户偏好对不齐。三个动作值得拆：第一，Page-wise NTP 把监督目标从单 item 改成一整页交互，解决 point-wise 下一对多的歧义，梯度也更稠密。第二，非对称线性 Token Merger 对 prompt 里的多 token SID 压缩、对 decode 侧保持全分辨率，输入长度降到约 1/2，精度几乎无损——这是工业 GR 绕不开的延迟瓶颈。第三，偏好对齐用 GRPO-SR：GRPO + NLL 正则做训练稳定化，混合奖励把 dense reward model 和 relevance gate 串起来防 reward hacking。线上一个月 A/B，点击 +9.5%、成交 +8.7%。对比 COBRA (2503.02453) 的稀疏 SID + 稠密向量级联、LLaDA-Rec (2511.06254) 的并行扩散绕开自回归误差累积，GenRec 走第三条路——不换 decoder-only 架构，靠 prompt 侧压缩 + RL 稳定化来榨性能。

UniRec (2604.12234) — 阿里（淘宝场景推断，摘要未直接披露机构，但线上指标含高价值订单与电商 SID 词表）。作者直接把表达力差距公式化：判别式模型按 p(y|f,u) 排序可以直接看 item 侧特征做显式交叉，GR 解码时只看到压缩过的 SID token。用贝叶斯重写为按 p(f|y,u) 自回归分解——只要生成模型能拿到完整特征，表达力理论上和判别式等价；实际差距来自特征覆盖不全。核心机制 Chain-of-Attribute (CoA) 在每条 SID 序列前 prefix 三类结构化属性 token（类目、卖家、品牌），再解码 SID 本身。因为同属性 item 在 SID 空间聚簇，属性条件让每步解码熵 H(s_k|s_{<k},a) 严格小于 H(s_k|s_{<k})，beam search 搜索空间被砍一刀。部署侧两个细节：容量约束 SID 在 RQ 里加 exposure-weighted 容量惩罚压制 token 坍塌和层间马太效应；Conditional Decoding Context 把任务条件 BOS 和哈希内容摘要注入每步解码。训练用 RFT + DPO 做业务目标对齐。离线 HR@50 相对最强 baseline +22.6%、高价值订单 +15.5%，线上 A/B 业务指标显著正向。和 LETTER (2405.07314) 在 tokenizer 侧做多样性损失的路子互补，UniRec 直接在 decode 时拿属性做条件。

R3-VAE (2604.11440) — ByteDance 头条线上验证。VAE-based SID 有两个长期痛点：直通估计器 (STE) 梯度传播不充分加上对初始化敏感，训练不稳；SID 质量评估只能靠训一遍 GR + A/B，反馈周期太长。三个设计：reference vector 作为初始特征的语义锚点缓解初始化敏感；点积 rating 机制 稳定训练、防码本坍塌，直接替代传统 VQ 的最近邻查表；Semantic Cohesion 和 Preference Discrimination 两个 SID 评估指标当训练正则项，把 SID 质量信号从 offline 评估拉进训练 loop。数字很扎实：Amazon 三个数据集 Recall@10 平均 +14.2%、NDCG@10 +15.5%；头条线上 A/B MRR +1.62%、StayTime/U +0.83%。更有工业价值的一点是用 R3-VAE 替换 CTR 模型的 item ID，内容冷启提升 15.36%——这是 SID 落 ranking 的另一条路，和 SID-Coord 的门控融合不同，走整体替代。

SID-Coord (2604.10471) — 快手的思路不是生成式，而是把 SID 塞进传统 ID-based 精排，解决短视频搜索里 hashed ID 记忆强但长尾泛化差的问题。定位"轻量、不动主干"，三个组件：层次化 SID 上的 attention-based fusion 抓多层语义；target-aware HID-SID 门控动态平衡记忆和泛化；SID-driven 兴趣对齐模块建模 target item 和用户历史的语义相似度分布。重点是这套东西能直接集成到生产排序系统、不改 backbone。线上 A/B：搜索长播率 +0.664%、搜索播放时长 +0.369%，绝对值不大但在成熟短视频搜索上属于可观收益。SID 在这里不是生成目标，而是 ID-based 排序的泛化正则——和 DOS (2602.04460) 的双流正交 SID 同属"SID 辅助 ID-based"工业路线，区别是 DOS 走双流正交解耦，SID-Coord 走门控融合。

AuthGR (2604.13468) — 成均馆大学 + Naver。需要先说明：这篇是 web 搜索而非推荐场景，纳入本主题是因为它是本周唯一把多模态权威性信号塞进生成式检索解码条件的，对推荐 GR 可信度建模路线有直接迁移价值。现有 GenIR 几乎只优化 relevance，医疗金融这类高风险域光看语义相关会召回不可信文档。三件事：Multimodal Authority Scoring 用 vision-language 模型从文本 + 视觉线索打权威性分；Three-stage Training Pipeline 分阶段把权威性意识注入 retriever；Hybrid Ensemble Pipeline 做鲁棒部署。3B 模型可以对齐 14B baseline，模型侧成本节省实在。大规模 A/B + 人工评估在商业 web 搜索平台验证用户参与度和可靠性提升。

五篇放一起，工业 GR 落地的技术焦点已经从"能不能跑通"转到三件具体事——prefill 侧 SID token 压缩、训练侧 RL 稳定化、SID 质量训练期内评估；同时 SID 不再只当纯生成目标，快手 SID-Coord 和字节 R3-VAE 都在把它当成 ID-based ranking 的泛化/冷启补丁，这条双用路线正在成形。

LLM 与 Agent 驱动的推荐范式

本周 4 篇围绕一个共同痛点：LLM 进推荐系统，记忆可以个性化，但决策逻辑、profile 表达、跨域语义空间仍是静态或松散的。四篇分别从 policy skill、业务意图推理、联合 profile 生成、跨域统一语义四个切面做文章。需要预先说明：本章节 4 篇论文的摘要均未披露来源机构、backbone LLM 型号、具体线上指标数字，以下分析主要基于方法论层面。

SAGER (2604.14972) — 摘要未披露机构。问题定位很具体：现有 LLM 推荐 Agent 的用户记忆是每人一份、持续演化，但推理 prompt 是全局共享、静态不变的。推荐失败时系统只更新用户偏好记忆，从不回头质疑决策逻辑本身。SAGER 给每个用户配一份 policy skill——结构化自然语言文档，记录个性化决策原则并随交互演化。技术细节三件套：双表示 skill 架构，一份用于演化的"富底稿"和一份推理时注入的"最小精简版"，解耦演化成本和推理 token 开销；增量式对比 chain-of-thought 引擎，用被接受的 item 对比未被选中的 item 诊断推理缺陷同时保留先验；skill-augmented listwise 推理在候选集中构造细粒度决策边界。四个公开数据集达 SOTA，增益与记忆积累正交——作者强调"推理过程个性化"是独立于"记忆个性化"的另一条增益通道。对照 Self-Evolving Recommendation System (2602.10226) 走 end-to-end 模型自优化，SAGER 把"自演化"的粒度下沉到每用户一份 policy 文档。

Local-Life Agentic Reasoning (2604.14051) — 摘要未披露机构，从场景属性看很可能来自美团、抖音本地生活或饿了么等国内平台。核心观察：local life service 的驱动力是"即时生活需求"，先前工作把"需求识别"和"服务推荐"分开建模，错过两者的强耦合。本文用一个 LLM 框架联合建模"生活需求预测"和"服务推荐"。两个关键动作：行为聚类做数据清洗把偶然性消费过滤掉，只保留典型模式，帮模型学稳定的需求生成逻辑并让长尾场景自发泛化；课程学习 + RLVR (reinforcement learning with verifiable rewards) 让模型按"需求生成 → 品类映射 → 具体服务选择"顺序分阶段学。RLVR 的 verifiable reward 在 local life 场景天然好构造——成交、核销就是可验证的奖励。摘要未披露具体 AUC/GMV 数字，也未说 backbone LLM 型号。和 OneLoc (2508.14646) 同属 local life 赛道，但 OneLoc 走地理感知生成式推荐，本文走 agentic reasoning + need/service 联合建模，技术路线不重叠。

DUET (2604.13801) — 摘要未披露机构。解决 LLM 推荐里经常被回避的问题：文本 profile 怎么写？人工模板脆弱、偏题，独立生成 user profile 和 item profile 会出现"各自看都合理、放一起语义不一致"的毛病。DUET 的解法是 interaction-aware 联合生成——user profile 和 item profile 在同一次生成里相互条件化。三阶段：把原始交互历史和 metadata 压成紧凑 cue；把 cue 扩成配对的 profile prompt 然后生成 profile；用下游推荐效果作为 reward 信号做 RL 优化生成策略。关键是第三步——template 不再人工定，而是由下游推荐指标反向优化出来。三个真实数据集一致优于强 baseline。和 AlphaRec (2407.05441) 的"纯文本 embedding + 线性映射就能超越 ID-based CF"对比，DUET 把重点从"利用已有文本"推进到"主动优化文本生成策略"，让 profile 本身成为可训练的对象。

SemaCDR (2604.09551) — 摘要未披露机构。针对跨域推荐的老问题：依赖 domain-specific 特征或 ID 就做不动跨域迁移。SemaCDR 用 LLM 构造统一语义空间，把迁移从"特征层"抬到"语义层"。三个 choice：multiview item 特征由 LLM 生成的 domain-agnostic 语义 + domain-specific content 组成，用对比正则化做对齐；系统地让 LLM 同时产出 domain-specific 和 domain-agnostic 两路语义，用 adaptive fusion 聚合成统一偏好表示；跨域行为序列对齐，用 adaptive fusion 合成 source/target/mixed 三种交互序列训练。对照 LLM4MSR (2406.12529) 的多场景层次化元网络路线，SemaCDR 是 cross-domain sequential 路线，强调 LLM 生成的 agnostic/specific 双路语义和对比对齐。两者都选择不微调 LLM，把 LLM 当语义增强器而非端到端推荐器——这是当前"LLM + 推荐"工业落地方向上相对稳的共识。

四篇放在一起看，"LLM 做什么"在本周有明显下沉：不再把 LLM 当作直接出排序分数的黑箱，而是让它输出可演化的 policy skill（SAGER）、可验证的推理链（local life）、可优化的文本 profile（DUET）、可迁移的语义特征（SemaCDR）——LLM 的产出物从"推荐结果"退一步变成"推荐系统里的结构化中间件"，推理开销可控性和可解释性同时改善。

工业大规模系统的推理/训练效率

基础模型做大之后，在线服务侧的账一直算不过来。本周四篇工业论文集中给出蒸馏之外的另一套解法：把基础模型推理从请求关键路径挪走（SOLARIS）、把扁平索引换成可学习层级结构（Hierarchical Indexing）、把历史序列压成实例级 token（IAT）、在多场一体 backbone 里修复维度坍塌（TokenFormer）。

SOLARIS (2604.12110) — Meta 广告系统。核心矛盾很直接：推荐 scaling law 催生的 foundation model 复杂度已经到了实时 serving 跑不动，业界普遍只能退回知识蒸馏，用服务质量换延迟。SOLARIS 借鉴 LLM 的 speculative decoding：不压缩模型，而是预测未来请求里会出现的 user-item 对，异步提前把 foundation model 的 embedding 算好。这样 foundation model 推理就从延迟敏感路径解耦出去，线上只取预计算结果。部署在 Meta 广告系统，日均数十亿请求，top-line revenue +0.67%。这个数字在 Meta 这个盘子里是实打实的营收级改动，而且前提是"保留 foundation model 原始质量"而非蒸馏折损——恰好是 Bridging the Gap (2408.14678) 在排序蒸馏里反复强调的 hidden cost 问题的另一种回答：与其在蒸馏里挣扎，不如把昂贵模型彻底移出在线路径。

Hierarchical Indexing (2604.12965) — 同样 Meta 广告召回。大规模 foundational retrieval model 的部署，要么依赖离线算好的 user dictionary 缓存、要么蒸馏到小模型，两条路都没把基础模型的表达能力用满。本文联合学习一个层级索引：cross-attention 做节点选择、residual quantization 做向量量化，在保证 exactness 的前提下把检索成本降下来。落地在 Meta 广告，支撑 Facebook/Instagram 数十亿用户的日常广告召回。一个有意思的副产品：学出来的中间节点对应到一小批高质量数据，在这批数据上 fine-tune 模型能进一步提升推理效果，作者称为推荐里的 "test-time training"。和 ContextGNN (2411.19513) 那种在双塔之外拼接成对表示相比，这里把"层级结构"本身作为可学习对象嵌进模型，而不是在召回后面再叠一层融合网络——后者改造成本更低。论文未披露具体的索引深度和召回率数值。

IAT (2604.08933) — ByteDance。序列建模瓶颈很多时候不是模型，是特征。手工拼接的序列特征信息容量有限，下游 sequence model 再强也就到天花板了。IAT 做两阶段压缩：第一阶段把单次交互的全部特征压进一个 instance embedding token，第二阶段下游任务按时间戳取定长 token 序列、套标准序列模型学长程偏好。压缩方案分 temporal-order 和 user-order 两种，后者在下游对齐上更贴合。压缩发生在特征侧而非模型侧，serving 时拉的是固定长度 token 序列，推理开销可预测——这是它和 DLLM2Rec (2405.00338) "从 LLM 蒸到小序列模型"的根本差别：IAT 不碰下游模型结构。落地覆盖电商广告、商城营销、直播电商三个场景，关键业务指标都有提升（具体百分比未披露）。论文声称在 in-domain 和 cross-domain 设定下都显著优于 SOTA，让 instance token 作为跨场景可迁移中间表征具备实际价值。

TokenFormer (2604.13737) — Tencent 广告平台，本主题最"架构派"的一篇。推荐系统长期分两条路：特征交互模型处理 multi-field 类别特征的相关性，序列模型处理行为动态。近年业界试图在共享 backbone 下统一两者，但本文经验性地发现一个失败模式——Sequential Collapse Propagation (SCP)：multi-field 稀疏特征的有效秩显著低于序列特征，共享 attention 传播时会把序列表示的秩也拉下来，最终非序列字段的维度病态把序列特征也拖进维度坍塌。两个手术刀级修复：Bottom-Full-Top-Sliding (BFTS) 注意力，底层 full self-attention、上层切到窗口递减的 sliding attention；Non-Linear Interaction Representation (NLIR) 对 hidden state 做单边非线性乘性变换。在 Tencent 广告平台和公开 benchmark 上都拿到 SOTA，分析实验证实维度鲁棒性和表示判别度都显著提升。价值不在"又一个 Transformer 变种"，而在把"多场一体 backbone 为什么容易垮"量化成可诊断的失败模式并给出结构补丁。对比 MSN (2602.07526) 靠记忆模块稀疏激活做 scaling，TokenFormer 走"共享 backbone 但在 attention 拓扑上分层隔离"的另一种解法。

四篇放在一起，一条共同线索浮出来：工业界已经不再执着于"把大模型压小上线"这一条路——要么像 Meta 那样把大模型整体移出在线路径（异步预计算 + 层级索引），要么像 ByteDance/Tencent 那样在特征侧或 attention 结构里做手术，让下游能继续用"便宜"的标准模型。蒸馏不再是默认选项。

值得关注的方向

方向一：生成式推荐的"工程化成熟期"。 京东、阿里、字节、快手本周都有落地论文，说明 GR 已经从"能不能替代判别式"的学术讨论跨到了"怎么把 prefill 压下来、怎么训练期评估 SID、怎么防 reward hacking"的工程阶段。做召回 / 粗排的团队值得紧盯两件事：一是 prefill 侧 token merger 的公开实现（GenRec 路线），二是 SID 作 ID-based ranking 泛化正则的双用路线（SID-Coord / R3-VAE 路线）——后者不改 backbone，落地门槛远低于端到端 GR。

方向二：foundation model 的"解耦式部署"。 SOLARIS 和 Hierarchical Indexing 同一周来自 Meta 的两篇不同思路，都在回答同一个问题：当推荐基础模型大到无法实时 serving 时，除了蒸馏还有什么办法。SOLARIS 走异步预计算把大模型挪出关键路径，Hierarchical Indexing 把可学习层级结构嵌进模型。对正在建自家"推荐基础模型"的团队来说，这是比"再训一个蒸馏学生"更值得投入的方向——两者都保留了原始模型的表达能力，而 0.67% top-line revenue 在 Meta 广告盘子的量级是直接的营收信号。

方向三：LLM 作"结构化中间件"而非"端到端推荐器"。 SAGER 的 per-user policy skill、DUET 的 interaction-aware profile、SemaCDR 的 domain-agnostic 语义、local life 的 agentic reasoning——四篇的共同点是 LLM 的产出物都不是最终排序分数，而是可以被下游推荐系统消费的结构化中间表示。这条路线比"LLM 直接当排序器"更务实：推理成本可控、可解释性更强、能利用已有推荐基础设施。做 LLM 推荐的团队值得把工程重心从"LLM 生成分数"转向"LLM 生成可训练、可缓存、可对齐的中间件"。

本周论文速览

生成式推荐与 Semantic ID

GenRec — 京东在 JD App 部署偏好导向生成式召回框架；Page-wise NTP + 非对称 Token Merger + GRPO-SR，线上月级 A/B 点击 +9.5%、成交 +8.7%，输入长度降到约 1/2。

UniRec — 阿里（淘宝场景推断）用 Chain-of-Attribute 给 SID 解码前缀属性 token，并证明生成式与判别式在完整特征下等价表达；HR@50 +22.6%、高价值订单 +15.5%，线上 A/B 业务显著正向。

R3-VAE — ByteDance 用 reference vector + rating 机制稳定 SID 训练，提出 Semantic Cohesion / Preference Discrimination 两指标做训练期 SID 评估；Amazon Recall@10 +14.2%、NDCG@10 +15.5%，头条线上 MRR +1.62%、CTR 冷启 +15.36%。

SID-Coord — 快手在短视频搜索 ID-based 精排里引入轻量 SID，attention fusion + HID-SID 门控 + 兴趣对齐，不改 backbone；搜索长播率 +0.664%、播放时长 +0.369%。

AuthGR — 成均馆大学 + Naver 将多模态权威性信号注入生成式检索（web 搜索场景），用 vision-language 模型给文档打权威分；3B 模型对齐 14B baseline，商业 web 搜索线上 A/B 正向。

LLM 与 Agent 推荐（以下 4 篇摘要均未披露机构）

SAGER — 给每个用户一份 policy skill 文档，双表示架构 + 对比 chain-of-thought 引擎 + skill-augmented listwise 推理；四个公开数据集 SOTA，增益与记忆积累正交。

Local-Life Agentic Reasoning — 用 LLM 联合建模生活需求预测与服务推荐，行为聚类去噪 + 课程学习 + RLVR；显著提升 need prediction 与推荐精度（具体数字未披露）。

DUET — interaction-aware 联合生成 user/item profile，cue 压缩 + 配对 prompt + RL 反向优化生成策略；三个真实数据集一致优于强 baseline。

SemaCDR — 用 LLM 同时产出 domain-agnostic 和 domain-specific 双路语义，adaptive fusion 合成统一偏好表示；多数据集跨域 SOTA。

工业大规模系统

SOLARIS — Meta 广告把 foundation model 异步预计算 + offload 出请求关键路径；日均数十亿请求，top-line revenue +0.67%。

Hierarchical Indexing — Meta 广告联合学习层级索引，cross-attention + residual quantization；支撑 Facebook/Instagram 数十亿用户日常广告召回，中间节点对应 test-time training 高质量数据。

IAT — ByteDance 两阶段 instance-as-token 压缩历史序列，特征侧压缩不动下游模型结构；落地电商广告 / 商城营销 / 直播电商，关键业务指标提升（具体百分比未披露）。

TokenFormer — Tencent 广告诊断多场一体 backbone 的 Sequential Collapse Propagation，BFTS 注意力 + NLIR 非线性乘性变换修复；Tencent 广告平台 SOTA。

精排与序列建模（补充）

DSAIN — Meituan 外卖在 CTR 模型里引入"情境"概念（行为类型/时间/位置等），重参数化去噪 + 三向相关融合；线上 CTR +2.70%、CPM +2.62%、GMV +2.16%。

DFS Ranking — Daily Fantasy Sports 平台用 DIN 注入紧迫性特征 + 时间位置编码 + neuralNDCG listwise loss，支持时效敏感赛事推荐；nDCG@1 比 LightGBM +9%（65 万用户 / 1000 亿交互）。

召回与多模态检索（补充）

Bottleneck Tokens — 为 decoder-only MLLM 统一多模态检索引入显式聚合 token + Condensation Mask 下的生成信息压缩目标；MMEB-V2 Overall 59.0（+3.6 over VLM2Vec-V2）、Video-QA +12.6。

NSFL — 免训在 dense retriever 上叠加神经-符号模糊逻辑支持多原子布尔约束，Spherical Query Optimization 做流形稳定投影；六种 encoder 上 mAP 最高 +81%，已微调 logical reasoning 编码器额外 +20%~47%。