3 | Page | Recsys Frontier

W29 的核心叙事是开源模型第一次在某些关键维度追上闭源前沿——Kimi K3 以 2.8T 参数在 Frontend Code Arena 超过 Claude Fable 5，Inkling 作为美国生态最强 Apache 2.0 模型入场。与此同时，Agent harness 工程化从概念讨论进入系统化论文产出：三篇独立工作（Harness Handbook、Self-Evolving 框架、AgentCompass）分别从代码定位、自动改进和评估基础设施切入同一问题。后训练 RL 也迎来两个信号：万亿参数 Zero RL 的稳定训练管道（Ring-Zero）和百万 token 级 RL 后训练的执行栈（LongStraw），说明 Agent 长程推理的后训练已具备实操基础。推理引擎则在 vLLM v0.25 和 SGLang 8×B300 500 tok/s 的进度上继续保持高密度迭代，推测解码的并发优化（D-cut）也开始填上高负载场景的缺口。

文章详情

推荐系统

周报

论文

本周推荐系统研究集中在四条技术主线：生成式推荐进入工业深水区、排序模型向长序列和细粒度语义演进、召回系统在异构索引和因果优化上取得突破、LLM增强推荐从实验走向工程落地。34 篇论文中有 23 篇来自工业界（含 18 篇已部署），13 篇报告了线上 A/B 结果。主线 1 "生成式推荐从 DocID 设计到微调对齐"：阿里巴巴的 CRID 将业务价值排序直接编入 DocID，在 300M 商品库上全流量 GMV +1.06%。GFlowGR 用 GFlowNet 微调生成式推荐，在淘宝搜索广告实现年收入 +0.4%。美团 NONTP 通过时序对比学习和跨域学习扩展 NTP 训练信号，线上 CTR +1.8%、GMV +2.1%。三篇的共同指向是——生成式推荐正从 "能生成" 转向 "会优化"。主线 2 "排序模型追求深度解耦与长时建模"： Meta 的 SlimPer 将个性化排序建模为 <user, item> 知识库迭代精炼，支持 10k+ 历史事件且 O(N) 复杂度，部署于 Instagram。Yandex 的 Long-History User Transformers 通过离线编码 + 缓存 + 轻量在线模型解耦长历史推理，搜索广告 +2.77%。阿里 SAM 用饱腹感门控显式建模兴趣生命周期，将购买后重复率降低 60%。主线 3 "召回系统的工程与因果范式"： Pinterest 的因果检索框架减少 85% 购物触发器而不损关键会话。MESH 通过模块化架构和门控偏置校正，使新鲜物品缩放指数提升 14 倍，用户留存 +0.46%。Microsoft 的 FlashTrie 将生成式检索的约束解码全量迁移至 GPU，800M 关键词库 <3ms，线上收入 +0.71%。主线 4 "LLM 推荐的轻量化和 Agent 化"： Vrbo 用训练免费的 LLM 合成查询解决长尾覆盖问题，缩小 3B 模型与 API 模型的召回差距至 <1%。QuintoAndar 的 LLM 重排序融合对话上下文在房产搜索中 CTR +5.3%。Kuaishou 的 RashomonLLM 将解释生成与预测耦合，在直播 CTR 上 AUC +2.3% 且解释质量提升 8.7%。

文章详情

推荐系统

日报

因果推断与长期优化成为工业界标配：今日多篇工业界论文（Pinterest、Yandex）将因果推断、Uplift建模和长期用户留存作为核心优化目标，从传统的CTR/CVR短期信号转向更复杂的因果效应和长期价值建模，且均已在生产系统大规模部署验证。; 大模型（LLM/Transformer）在推荐链路中落地加速：LLM和Transformer不再仅用于特征工程，而是直接嵌入到重排序（QuintoAndar）和历史编码（Yandex）等核心环节。工业界正探索如何将大模型的语义理解能力与严格的延迟约束

文章详情

日报

技术趋势

今日 AI 领域聚焦于效率与成本的系统性优化。OpenAI 发布“每美元有用智能”评估框架，NVIDIA 提出“intelligence per dollar”新指标，标志着行业从纯算力竞赛转向投资回报率量化。Anthropic 与 Meta 谈判 100 亿美元算力租赁，4 亿美元交易首次转向推理芯片，基础设施资本流向发生结构性转变。技术层面，GitHub 提出 AI Agent 时代“决定写什么比写代码更贵”的工程反思，LongStraw 在固定 GPU 预算下实现 2M+ token 的 RL 后训练，为 Agent 长轨迹训练提供可行路径。

文章详情

推荐系统

日报

精排架构向可扩展Transformer演进：以TmallGS为代表，工业界精排正从传统DLRM转向统一、计算密集型的Transformer架构，通过层次化特征分词和场自适应门控机制处理异构特征，并验证了Scaling Law的有效性。; 去偏与个性化走向精细化解耦：多篇论文关注如何分离混杂信号。OrDA通过正交正则化解耦访问习惯与真实兴趣，Apple TV搜索则混合文本与ID嵌入来区分语义相关性和协同信号，两者均通过因果干预或对比学习提升个性化纯度。

文章详情

日报

技术趋势

今日 AI 领域迎来开源模型的双重里程碑：月之暗面发布 2.8T 参数的 Kimi K3，成为最大开源模型，在 Frontend Code Arena 超越 Claude Fable 5；前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 发布 975B 开源模型 Inkling，性能持平 Nvidia 旗舰但 token 成本仅三分之一。同时，微软被曝培训销售人员贬低 OpenAI 和 Anthropic，Anthropic 计划秋季 IPO 估值或达万亿美元，产业格局加速重塑。多篇工业界论文聚焦 Agent 长上下文训练、推理优化和信用分配

文章详情

推荐系统

日报

异构内容统一与缩放：工业界正从碎片化的“检索模型动物园”转向统一框架。Pinterest 的 MESH 通过模块化架构和门控偏置校正，解决了异构内容（如新鲜、长尾）的缩放偏差，使稀疏内容的缩放指数提升 14 倍，并带来显著的线上收益。这预示着未来检索系统将更注重生态感知和统一缩放。; 推理与预测的解耦：在序列推荐和生成式推荐中，将推理过程与最终预测解耦成为新趋势。RecRec 通过递归推理在独立潜在空间中精炼兴趣，SlimPer 通过迭代精炼紧凑知识库，两者都打破了传统方法中推理与预测耦合带来的

文章详情

日报

技术趋势

今日 AI 领域迎来多个重磅发布与工程突破：Thinking Machines Lab 开源 975B 参数 MoE 模型 Inkling，首日即获 vLLM、SGLang 等推理栈全面支持，但 Ethan Mollick 压测显示其性能远不如中国前沿开源模型。NVIDIA 发布 Jetson Thor T3000/T2000 边缘 AI 算力新标杆，同时 Jim Fan 宣布 RoboTTT 实现机器人模型原生支持 8000 步上下文。中国 AI 陪伴法规正式生效，Doubao、Qwen 被迫关闭个性化功能，成为全球首个情感 AI 监管里程碑。xAI 开源 Grok Build 完整代码库（

文章详情

推荐系统

日报

生成式检索加速落地：今日多篇论文聚焦生成式检索的工业部署瓶颈。FlashTrie 用 GPU 加速约束波束搜索实现 24 倍加速，CRID 将业务价值编码进 DocID 提升 GMV，PG 用配置驱动解耦特征工程加速迭代。生成式检索正从学术概念走向大规模在线系统。; LLM 推荐走向混合架构：LLM 推荐不再是“全盘替代”，而是与传统 ML 协同。Meta/Amazon 的 Agentic 系统用 LLM 处理非结构化信号、传统模型保证效率；Apple Music 用语义检索补充 token-b

文章详情

日报

技术趋势

今日 AI 领域迎来多个重要节点：OpenAI 代理产品使用量一周暴增 2.5 倍，Codex 用户达 600 万，同时 GPT-5.6 sol 价格减半、效率翻倍，成本降至四分之一。腾讯开源 295B Hy3 的 1-bit 量化版，仅损失约 5% 性能即可在单 GPU 运行，被 Stable Diffusion 创始人称为"今日最大新闻"。Apple 洽谈收购 PrismML，其量化技术可将 54GB 模型压缩至 4GB 运行于 iPhone，端侧 AI 能力跃升在即。蚂蚁集团将 Zero RL 扩展到万亿参数规模，揭示涌现行为；Anthropic 平台负责人详解 Agent 三层架构与开

文章详情

推荐系统

日报

LLM 驱动的可解释性与决策智能：今日多篇论文探索了 LLM 在推荐系统中的应用，从生成自然语言解释（RashomonLLM）到作为路由决策的候选模型（LLM Routing）。这表明 LLM 正从单纯的“特征提取器”向“推理与规划引擎”演进，为提升系统可解释性和决策效率提供了新路径。; 理论驱动的在线学习与探索策略：多篇工作聚焦于 bandit 和 Top-k 识别等在线学习问题，并提出了具有理论保证的算法（如 TOFU-POV、渐近最优 Top-k 识别）。这反映了工业界对在有限样本和不确定

文章详情

日报

技术趋势

今日 AI 领域火药味十足：Apple 起诉 OpenAI 窃取商业机密，被 Stratechery 解读为 AI 竞争受挫后的情绪宣泄；OpenAI GPT-5.6 Sol/Terra/Luna 三款模型在 Amazon Bedrock 正式上线，Agent 基准显著领先；微软发布 109 页 MAI-Thinking-1 技术报告，完整揭秘 LLM 训练全流程。产业层面，vLLM 生态三天内密集落地三项 RL 训练框架，Meta 用开源 BPF 调度器将广告服务 p99 延迟降低 28%，MIT 推出 SceneSmith 用三个 VLM Agent 协作生成机器人训练场景。Sakana

文章详情

1 2 3 4 5 6

...