Scaling 这个词从 LLM 扩展到推荐系统，最近也是驱动了推荐系统的核心收益。它有 Scaling Law 的 paper 提出，原本是指算力、参数、数据和 Loss 的 powerlaw 经验关系。由于推荐系统一直也是用全数据的，那么实际就是指扩展推荐模型的网络参数量，能够持续稳定地提升离线指标。
之前迭代了很久的成熟的工业模型，折腾网络结构和特征，每次迭代收益来到了千分位，突然又能有几个百分点地提升了，这就是网络参数 Scaling 的魅力，和转为业界共识的核心原因。
但这不是推荐系统的第一次 Scaling，或者说 网络参数Scaling 背后是一种做推荐目标优化的思维方式：放弃掉算法局部技巧的细枝末节，找到一个可以扩展的轴，转动它能够稳定地影响业务指标，你就把一个玄妙未定的算法研究问题转化成了稳定可预期的工程问题。

推荐系统迭代的本质是 Scaling：结构只是摩擦系数，Infra 才是核心能力

最近 DeepSeek V4 的多专家整合方案采用了OPD（On-Policy Distillation），在工业级项目上证明了OPD 在后训练中占据一席之地。而它的进阶版本OPSD（On-Policy Self-Distillation）也在 Cursor 的模型训练上大规模使用，并且展现出在利用隐式反馈数据，定向纠错和持续学习上的潜力。
文章包括：
• 知识蒸馏的 3 种范式：KD，OPD，OPSD。
• RLVR 的信用分配问题与稀疏 Reward问题，OPSD能联合弥补，定向纠错
• OPSD 不局限于显式的人类标注（RLHF），有潜力利用文本隐式用户反馈持续学习。

On-Policy Self-Distillation：LLM利用隐式文本反馈定向纠错与持续学习

在 DeepSeek-V4，MiMo-V2，Minimax-M2，Qwen3-Next，GLM-4.5 的最新技术报告里，有一个被共同采用的技术模块MTP（Multi-Token Prediction）。它不仅作为预训练的辅助 loss，提升了模型效果，又能作为 draft model 进行投机解码推理加速，实现了多快好省，变成了 LLM 标配之选。

国内LLM圈的共同选择：多快好省的MTP

之前是一次开放性的问答，问到了这个问题。可以有非常多的答案，比如通常的说法，更专注于代码能力，代码加速了模型的研发，形成了飞轮；更加专注于 B 端付费客户，比起 C 端没有成型的商业模式，B 端可以一边赚钱，一边积累真实的问题解决反馈。
这些肯定都是，但是我觉得那都是伴随着大量表象的或然，它背后的必然是什么？我认为是一种认知，我最近深刻地认识到：在技术的变革期，你的 Team 当下能落地什么，取决于一年前的认知，模型很大，建立新的 Infra 需要时间，这个放到推荐系统是这样，在 LLM 的发展期（20～26）就影响了更大的时间尺度。

为什么Anthropic能阶段反超OpenAI

最近模型从 Dense 切到了 MoE，MFU 也相应地暴跌了，大家直觉上觉得 Expert 被切的很小，所以计算强度上不去，但实际切分完的维度至少也有 1024，MFU 暴跌的原因一定不来自这里。深入理解这个问题，就是理解 GPU 的分布式并行计算，要在计算和访存 bound 之外，引入通信 bound，而解决吞吐和 MFU 的问题的手段，就是设计合理的 GPU并行策略，做好 GPU 计算和通信的遮掩（overlap）。
DeepSeek 的 H800 和昇腾卡，8 卡 nvlink  高速互联，跨节点都是 IB（InfiniBand）低速网络，我们手里虽然有 B200，但实际也也没用上 NVL72，所以DeepSeek 的并行策略有普适的借鉴意义——硬件基础相似，低成本方案，新的 MoE 的方案也做了开源。

DeepSeek-V4的并行策略和计算通信遮掩

2026 年了，一个 LLM 的训练流程并不陌生——pre-train，SFT，RLHF/RLVR。但实际这是一个领域 LLM 的训练方案，比如 Coder/Match/文本专家，怎么整合成一个混合通用模型呢？
最近的 DeepSeek V4技术报告把Post-Train 讲流程讲的更细致了，它先是 pre-train 得到一个 Base-Model，然后先按领域（数学、代码、agent、指令跟随等）分别训练 10 几个专家模型，每个专家都走过 SFT + GRPO 的完整 RL 流程，在自己领域里练到极致。然后关键的一步来了：把这些专家"合成"一个统一模型时，不是让 student 去抄 teacher 的输出分布，而是让 student 自己先 rollout 生成回答，再让多个 teacher 在 student 自己写出来的轨迹上逐 token 给反馈。

从 DeepSeek V4 的多专家on-policy Distillation 反观人类学习

用 Claude Code 模拟 openclaw 风格的个人助理——补齐心跳、记忆、进化三件事，知识库走 Karpathy 的 LLM Wiki。

zero-claw：把 Claude Code 变成 openclaw 风格的个人助理

在 Claude Code 里跑两天无人值守的 ML 实验循环，靠的不是更聪明的 Agent，而是三层 liveness 机制、TaskList 仪表盘和异步 Note 介入通道。

Superpowers-ML 支持 Auto Research：跑两天的 Human on the Loop

推荐系统 20 年来方法换了六七轮，但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥，根源都在这里。真正的范式改变不是换方法，而是重新定义问题：从 Next One 到 Next N。

From Next-One to Next-N：这才是推荐系统的范式改变

从 context 管理到 harness 设计，10 个让你的 coding agent 告别 context rot、成功率翻倍的实用习惯。

让 Claude Code 成功率翻倍的 10 个简单习惯

Agent 写代码很快，但做 ML 实验却异常困难——代码写完只是开始，真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线，一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML：将软件工程的 TDD、code review、verification 延伸到 ML 领域，通过四层 Validation Pyramid 在几分钟内抓出问题，用 Watchdog 守护长时间训练，让 agent 每次出手都更准确。

Superpowers-ML：用 Superpowers 给 ML 实验做的 Harness Engineering

覆盖 101 篇核心论文（58 篇工业界 + 43 篇学术精选），系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心，深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

生成式推荐 (Generative Recommendation) 工业界深度 Survey

这不是一篇教大家怎么实操文章，不谈具体的工具和技术，我们来谈谈Vibe Coding的心法。
Vibe Coding 本质是利用 Agent 编码，Agent 背后是 LLM，LLM 是人类的”幽灵“，这出自 Karpathy 2025 年终总结**：”we're not evolving animals. We're summoning ghosts.“，**语言是人类世界的投影，LLM 是人类的幽灵。
工具和技术层出不穷，这是历史上从未出现过的新技术，没有人有经验。但是人性是一致的，拿捏住 Agent 的"人性"，把 Agent 当人来管，会让Vibe Coding 从迷茫走向有迹可循。

Vibe Coding 核心心法：管 Agent，如带团队

TCA 是 GPU 的核心算力部件 Tensor Core 的时间周期的激活比率，它和 MFU 理论上应当非常接近，日常中会出现 10%～20% 的 GAP，相对稳定，我们就以观察 TCA 为准了。
本文的契机是，当我尝试优化 MFU，拿TCA 作为一个辅助的观察指标，我发现他们之间的 GAP 在一些特殊情况下是不稳定的。由此开始拆解MFU 和 TCA 的 GAP，发现了GPU 的时钟频率在变，矩阵维度不是cuBLAS选择的 kernel shape 的整数倍导致的padding 计算浪费，以及最诡异Flash Attention 2 的 TCA 是 51%，MFU 不到 8%，时钟频率矫正后TCA稳定的是 MFU的 4 倍！

TCA 51%，MFU 不足 8%——GPU 的隐藏性能损耗

NVIDIA 最近的博客文章显示，Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了 35 倍（每 token 成本大幅崩盘），这不是孤立的巧合，而是符合 莱特定律（Wright's Law）的典型表现。

Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了35倍

谜底就在谜面上。
"算法工程师"，做个语法分析，这是个偏正结构。"算法"是定语，"工程师"才是中心语。定语修饰中心语，中心语决定你的身份。
算法工程师核心能力就是"工程能力"。
就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作，后面的中心语才是你安身立命的东西。
定语决定你的赛道，中心语决定你的天花板。

算法工程师的核心能力是什么

我们先思考下，一个公司组织里，为什么需要 Leader，需要层级？任何一个超过几十人的组织都需要架构设计。这件事如此普遍，以至于我们很少追问：为什么需要组织架构？组织架构本质上在解决什么问题？
表面上看，组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层，会发现一个有趣的视角：一个组织本质上是一个分布式信息处理系统。 外部信息进来，内部处理，输出决策和行动。组织架构定义的，其实是信息如何在这个系统里流动——谁产生信息，谁消费信息，信息经过哪些节点，在哪里被过滤，在哪里被聚合。

算法组织熵减与Scaling Law的悖论

2017 年，Ilya Sutskever 读到《Attention Is All You Need》时，立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线，全面转向 Transformer，催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天，推荐系统终于走到了同样的路口。

2024 年之前，推荐领域有了 HSTU、TIGER 这样的工作，但大多数团队还在观望。2025 年，我观察到一个明显的转变：大家开始认真地把排序模型 Dense Scaling Up，搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔，切换过程持续了一两年，之后再没人回头。我的判断是，2026 年将是推荐系统 All-In Transformer 的一年，不改变就落后。


2026：推荐系统 All-In Transformer 的元年

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

为什么LayerNorm+AdamW成了深度网络的标准配置？从尺度不变性到梯度动力学 

在和很多产品、运营团队合作的过程中，我常不得不扮演那个“泼冷水”的角色，特别是当大家对推荐算法寄予厚望的时候。
听到这样的战略规划：“我们明年目标是增长 80%，推荐系统是其中的关键。”
我的观点很直接：如果你的增长战略严重依赖推荐算法，一旦算法效果不及预期，目标就直接崩盘，那么这本质上是一个糟糕的战略**。对于规模增长，推荐算法不能雪中送炭，它只能在规模之上锦上添花。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

本文不是从系统优化角度谈复杂的模型的部署和优化问题，而是从行业成本角度，看线上推理多复杂的模型是可以满足成本及ROI要求的。
做一个假设：
• 电商推荐行业，主要是更熟悉成本核算
• 部署标准的Transformer作为排序模型，参考OneTrans结构
• 参数规模对齐qwen2的系列模型，更直观看看能跑哪个尺寸

Talent Dilution Roofline：你的算法团队可能不需要再招人了？

从精排切换成深度学习以来，工业界一直会把排序的模型结构研究切分成基本的两部分，序列处理和特征交叉，甚至有一些公司的排序组，下面都拆成两个Team分别处理行为序列和特征交叉。从最早的时候，比如序列用DIN来处理，序列就被压成了一个或多个向量表征，再参与与其他特征的交叉。我们可以理解成MLP(concat(DIN, Features))，发展到今天大多数的模型研究，还是分立地把MLP换成DCN，增加个LHUC，复杂化为Rank Mixer或Transformer，把DIN叠加MHA，直接换成Transformer，可以写成RankMixer(concat(Transformer, Features))。
从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features))，本质没有变，就是序列处理和特征交叉是一个隐式的两阶段处理，序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处，就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中，它能启发推荐排序模型的，就是每一个特征的交叉应该发生在用户序列的Token Space之中。

OneTrans 推荐系统对齐序列处理与特征交叉

今日 AI 领域迎来多个重要动态：OpenAI 提议向美国政府捐赠 5% 股权，探索 AI 公司与国家资本关系的新模式；Anthropic 发布 Claude Science Workbench 并宣布亲自开发药物，AI for Science 战略全面升级。同时，研究揭示 RL 后训练改进高度集中于 Transformer 中间少数层，为优化训练策略提供了反直觉发现；Snowflake 发布 Cortex Sense 解决企业 Agent 因缺乏语义视图而查询失败的核心痛点。开源生态方面，开源 AI 差距地图 v0.1 发布，系统索引 421 个项目；MCP 服务器生态虽近 2 万注册量但噪

AI 技术日报 - 2026-07-05

本周 AI 周报呈现出两条并行的主线：Agent 工程化正在从“能否运行”进入到“能否可靠规模化”阶段，同时推理基础设施的优化开始从通用框架走向针对特定硬件、特定模型的深度定制。 第一条主线体现在大量关于 Agent 循环、技能工程、多 Agent 协调的讨论中。AI Engineer World's Fair 上周结束后，Latent Space 连续发布了多篇深度报道，最引人注目的是“自主循环”（Loops）辩论——支持方认为软件工厂已经可行，质疑方则指出 token 成本和可靠性仍然是硬约束。与此同时，Apple 发表的研究直接挑战了一个流行的设计假设：让多个专家 Agent 自由协作反而会降低性能。这让本周的 Agent 话题有了清晰的对立面。 第二条主线来自 vLLM 0.24.0 的密集发布。一周内，vLLM 团队推出了 DeepSeek V4 的 DSpark 推测解码原生支持（~250 tok/s，接受长度 5），集成了百度 Unlimited-OCR（35% 快于 DeepSeek-OCR），还发布了 Omni TTS 的全面优化（吞吐提升 172%）。SGLang 也在本周展示了 Agent 辅助开发的工作流，多个 kernel 优化带来 71.4% 的吞吐提升。这些进展表明，推理框架的竞争正在从“跑通模型”转向“为一个模型做深度优化”。 以下是对本周四个主题的详细分析。

AI周报 2026-W27

本周24篇论文中，4篇来自工业在线部署（Meta、Netflix、阿里巴巴、快手），覆盖召回、排序、重排、全链路生成阶段。核心技术密度的分布逻辑在变——生成式推荐从"能生成"走向"能推理"，召回从嵌入匹配转向导航式探索，排序阶段则在约束和解释之间寻找平衡。 生成式推荐进入"推理+强化学习"时代： GR2、ShopX和GenPage在同一周展示了三种不同的生成式架构走向。GR2在重排阶段首次引入推理链（CoT）和RL后训练，在工业流量上R@1提升18.7%。ShopX将生成式推荐从候选生成推向"意图到物品"的端到端执行，在淘宝Agent场景下复杂请求满足率提升55-75%。GenPage走得最远——用单Transformer替代Netflix整套多阶段主页流水线，核心指标+0.24%的同时延迟降低20%。三篇的共同指向是：生成式推荐的核心壁垒已从"能否生成"转向"能否在推理质量与部署效率之间找到工业可行解"。 召回从静态匹配走向动态图探索： Meta的硬负采样通过LLM聚类生成实时同簇负样本，在线召回率+8.5%、流行度偏差-12.3%。快手的IID-Nav将召回建模为自主图探索，支持间接无限深度遍历。Kuaishou的POEM利用多任务排序分数构建偏序序列，实现请求级别的实时兴趣更新。三条技术路径共享一个趋势：召回正从静态嵌入查询转向动态、上下文感知的行为建模。 约束优化与可解释性重回视野： Avito的PermR在5600万搜索查询上证明了相邻交换法能在生产延迟内逼近整数规划收益。KakaoBank的ChunkGroupSHAP用分组Shapley值弥合了词级解释与密集排序器之间的粒度鸿沟。这两个工作提醒行业：在大模型热潮中，渐进式工程优化和可解释性工具仍能产出具象收益。

AI 技术日报 - 2026-07-04

LLM 深度赋能召回与检索：今日多篇论文将大语言模型（LLM）应用于推荐系统的召回阶段，超越了传统的语义匹配。Meta 利用 LLM 聚类生成硬负样本，Baidu 则用 LLM 构建用户画像并优化记忆检索，Amazon 则通过词汇迁移解决现代编码器在稀疏检索中的“词汇鸿沟”问题。这表明 LLM 正从特征提取向核心检索逻辑演进。; 生成式重排与推理加速成为焦点：以 Diffusion-GR2 为代表的生成式重排器，通过链式推理（CoT）提升排序精度，但其自回归解码速度是部署瓶颈。将扩散模型与知识蒸

AI 技术日报 - 2026-07-03

生成式推荐全面渗透推荐全链路：今日多篇重磅论文（Netflix GenPage、GR2、ShopX）共同指向一个趋势：生成式推荐正从传统的候选生成阶段，向精排、重排乃至整个主页构建等全链路环节渗透。核心思路是用一个统一的Transformer/LLM模型，通过自回归或语义ID（SID）的方式，端到端地完成排序、布局生成等任务，替代传统的多阶段流水线。; 强化学习（RL）+ 推理蒸馏成为LLM落地的关键配方：GR2和GenPage都验证了RL在LLM推荐中的巨大潜力，尤其是在重排序和页面生成这类复

AI 技术日报 - 2026-07-02

实时序列建模与多阶段信号融合：工业界（快手）开始利用精排阶段的多任务分数（CTR、观看时长）作为监督信号，构建动态偏序序列，替代传统的静态点击序列。这标志着序列建模从“被动记录”向“主动利用排序信号”的转变，能更精准地捕捉用户实时意图变化，并直接优化业务核心指标（如观看时长）。; 检索范式从“匹配”到“导航”的进化：无论是快手提出的IID-Nav（图导航）还是学术界对RAG检索瓶颈的诊断，都表明传统的静态相似度匹配（i2i）已无法满足复杂场景需求。新的趋势是将检索建模为状态化、多步的自主探索过程

AI 技术日报 - 2026-07-01

[LLM 推荐进入"推理"深水区]：今日两篇论文（IntuRec、期刊推荐）均利用 LLM 进行偏好推理，但不再满足于简单的 prompt 匹配。IntuRec 引入认知科学中的"直觉"概念，用候选集引导 LLM 在连续隐空间进行多步推理，而非直接输出 token。这标志着 LLM 推荐正从"语义匹配"向"结构化推理"演进，工业落地需关注推理延迟与成本。; [重排/排序的可解释性与约束优化并重]：KakaoBank 的 ChunkGroupSHAP 解决了密集嵌入排序的特征粒度不匹配问题，Avi

AI 技术日报 - 2026-06-30

本周 AI 行业围绕一条核心叙事展开：大规模基础设施层的能力突破，正在加速从实验室到生产部署的转化。 OpenAI 在同一天发布两则重磅消息——自研推理芯片 Jalapeño 与 GPT-5.6 Sol——覆盖了从硬件到模型栈的完整闭环。这不是孤立的发布，而是上下游协同推进的节奏：芯片优化推理成本，模型提升能力上限，两者共用同一个基础设施栈。 第二条主线是 Agent 工程从实验走向生产治理。Stripe 发布金融合规 Agent 实战案例，AWS 连续三篇博客聚焦 MCP 代理层与数据治理，GitHub 给出 Copilot agentic harness 的横评数据。与此同时，Anthropic 的 Claude Slack Tag 将 LLM 定位为组织级持久成员，Karpathy 评价这是 "LLM UI/UX 的第三次重大设计"。Agent 不再是单次对话，而是公司内部持续运行的角色。 第三条主线是 后训练范式从人工摸索向自动化、系统化演进。Amazon 发布 A-Evolve，在 30B 模型上实现无人干预的自主后训练；OpenAI 验证了有益行为 RL 在分布外泛化上的持久性；Qwen 的路标语言世界模型为 Agent RL 提供了可扩展的训练环境。这些工作共同指向一个信号：RL 不再只是 SFT 后的微调步骤，而是正在成为模型能力扩展的主引擎。

AI周报 2026-W26

本周 12 篇论文中，工业部署论文占据主导——8 篇来自 YouTube、TikTok、快手、腾讯、沃尔玛等一线平台，均有线上 A/B 实验指标。研究聚焦于三个相互交织的方向：生成式推荐与LLM增强、大规模检索的 GPU 加速、以及工业系统的架构与归因优化。 生成式推荐从“生成物品 ID”走向“生成物理物品”： 快手提出的 RaG（Kuaishou）将生成式推荐与视频生成统一，在 4 亿 DAU 平台上实现广告收入 +1.87%。YouTube 的 TokenMinds（YouTube）将 Semantic ID 从物品侧扩展到用户侧，生成离散用户 token 与稠密 embedding 双输出，覆盖全量用户流量。两条路线指向同一个判断——生成式推荐正在从离线一致性验证进入线上收益兑现阶段。 用户建模从“稠密向量”向“离散语义 ID”切换加速： 快手与 YouTube 几乎同时发布了基于 SID 的框架。这不仅是表征形态的变化，更意味着推荐系统与 LLM 世界的底层 token 空间开始对齐，跨场景统一（短视频/长视频、推荐/广告）的成本大幅降低。 工业归因与缩放方法论走向精细化： TikTok 的 归因校正框架（TikTok）将因果实验与每日生产归因对齐，将蚕食率降低约 15 个百分点。腾讯的 NOVA（Tencent）用智能体自动化架构演化，L3 任务线上 GMV 提升 +2.02%。快手的 UniFormer（Kuaishou）提出模型中心缩放框架，将建模空间显式分解为特征和任务两个维度。三者共同揭示——当模型架构趋于收敛，工程自动化和测量准确性成为工业竞争的新壁垒。

AI 技术日报 - 2026-06-29

[Agent + LLM 驱动推荐系统自动化]：从架构演化到特征筛选，工业界正系统性地引入 LLM Agent 来替代人工专家。腾讯的 NOVA 框架展示了 Agent 如何自动化完成“论文到生产”的模型升级，PayPal 的 EMA-FS 则用增益感知的筛选策略加速 GBDT 训练。核心趋势是从“调参自动化”走向“架构决策自动化”，但验证和风险控制（如 NOVA 的验证级联）是落地的关键。; [归因与增量性：从“归因”到“归因校正”]：广告归因领域正从简单的“最后一次点击”或“多触点归因”转向

AI 技术日报 - 2026-06-27

生成式推荐进入工业落地爆发期：今日多篇论文（TokenMinds、RaG）将生成式推荐从概念验证推向大规模工业部署。核心趋势是使用统一的Semantic ID (SID) 体系同时表示用户和物品，实现跨场景（长/短视频）的统一建模，并显著降低训练和服务成本。这标志着生成式推荐正从“召回”环节向“排序”和“内容生成”全链路渗透。; 零样本与自适应推理成为降本增效新焦点：面对海量动态物品和复杂查询，工业系统开始探索更智能的资源分配策略。IRENE通过元分类器为未见物品即时合成分类器，解决零样本检索难

AI 技术日报 - 2026-06-26

今日 AI 领域迎来多个重磅事件：OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño'，推理吞吐提升 4 倍；Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型，应用层公司自研模型趋势加速；Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent，挑战 NVIDIA CUDA 垄断。同时，NVIDIA 发布 DFlash 投机解码实现 15 倍推理加速，Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具，MCP 协议迎来最大结构更新转向 Stateless 设计。Ag

AI 技术日报 - 2026-06-25

LLM 蒸馏替代点击信号，重塑工业级召回训练范式：今日两篇来自 Walmart 的工业论文均采用 LLM 作为教师模型，生成结构化标注（相关性或意图），替代传统点击信号来训练双塔召回模型。这解决了点击信号中的位置偏差和长尾稀疏问题，并展示了显著的线上收益，标志着工业界正从“数据驱动”向“模型生成数据驱动”的范式转变。; 图基础模型（GFM）评估趋于理性，PFN 范式或成新方向：学术界对 GFM 的评估揭示了其并非普遍优于传统 GNN。只有基于 Prior-data Fitted Networks

AI 技术日报 - 2026-06-24

今日 AI 领域安全议题占据核心：五眼联盟联合警告 AI 数月内可发动毁灭性网络攻击，OpenAI 发布 GPT-5.5-Cyber 并推出安全修复工具，Latent Space 播客深度探讨 Mythos 时代红队测试。Cursor 宣布与 SpaceX 联合训练新模型，Perplexity CEO 预测多万亿参数开源模型即将到来。技术层面，LMSYS 联合 NVIDIA 用 SGLang 在 GB300 服务 DeepSeek-V4 实现 5 倍吞吐量提升，Amazon 首次公开 30B 模型自主后训练系统。

AI 技术日报 - 2026-06-23

今日 AI 安全领域爆出重大漏洞：AgentJacking 攻击利用公开的 Sentry 密钥即可劫持 Claude Code、Cursor 等编码 Agent，引发 Agent 供应链安全警报。与此同时，Tesla 提交“MEGAPOD”商标，暗示将 Supercharger 网络转化为分布式 AI 计算平台，边缘计算基础设施迎来新思路。宏观层面，AI 巨头因数据中心巨额支出转向债务融资，2026 年资本支出预计达 7500 亿美元，债券市场正成为科技投资者的新关注焦点。

AI 技术日报 - 2026-06-22

今日 AI 领域聚焦于智能体（Agent）的架构设计与落地原则。Google DeepMind 发布 57 页 ASI 路线图，首次正式定义超级人工智能，并指出硅基智能的固有优势。LlamaIndex CEO 提出 Agent 应使用类似 Google Docs 的双向可编辑文档格式，推动人机协作范式演进。HERE 则提出 LLM 空间推理不应近似计算，应完全卸载给专用执行层，为 Agent 与物理世界交互提供了关键设计原则。此外，一篇系统讲解 Triton 矩阵乘实现的教程，为 LLM 推理优化提供了从入门到实战的优质资源。

AI 技术日报 - 2026-06-21

2026-W25 最清晰的叙事线是：开源模型前沿从追赶变为并跑，甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布，参数规模从 284B 到 1.6T，上下文全部支持 1M token，且均以开源形式提供。社区评测和独立分析表明，这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。 第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA，两个 API 调用即可部署生产级 Agent；Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时，Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。 第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式，将 p90 TTFT 降低 53-398x；LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型，prefill 减少 53%；Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文，30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。 此外，监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款，美国商务部随后对 Fable 和 Mythos 实施出口许可要求，Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展，从罕见病诊断到全身体超声 CT。

AI周报 2026-W25

本周推荐系统研究集中在三个方向：大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作，提供具体的AB指标。 主线1（大规模图系统的端到端设计）： Meta的RankGraph-2（Meta）将图构建、表示学习、在线服务三个阶段耦合优化，在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向，HighLevel的ScoreGate（HighLevel）用双分数统计融合控制RAG检索数量，生产环境减少34.8% token、召回率97.77-99.34%。 主线2（生成式推荐从理论走向生产）： Airbnb的JourneyFormer（Airbnb）在搜索排序中部署基于Transformer的序列模型，处理长且稀疏的用户行为；阿里巴巴的OneBar（Alibaba）用端到端生成式框架做视频电商查询推荐，GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束（冷启动、延迟、标签稀疏）下做工程折中，而非单纯追求离线指标。 主线3（多任务排序的Transformer-native范式）： Shopee的OneRank（Shopee）消除编码器-预测器分离，在Transformer内部做任务私有通道和梯度分离，线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO（NetEase Cloud Music）用可学习[CLS] token实现列表级多目标重排，CTR+0.62%、CVR+4.45%。两者都说明：将多目标推理内化到Transformer堆中比外挂MLP更有效。

AI 技术日报 - 2026-06-20

全链路协同设计成为工业界新范式：Meta 的 RankGraph-2 和 Airbnb 的 JourneyFormer 都展示了从数据构建、模型训练到在线服务的端到端协同优化思路。RankGraph-2 更是明确提出图构建、训练、服务三阶段生命周期协同设计，通过各阶段需求相互约束来提升整体效率，这标志着工业界推荐系统正从单点优化走向全链路系统级优化。; 多语言/跨域检索成为热点，工业界与学术界共同发力：今日有多篇论文聚焦多语言或跨域场景。Baidu 的 Querit-Reranker 通过标签无

AI 技术日报 - 2026-06-19

大模型驱动的推荐系统范式升级：今日多篇论文聚焦于将大型语言模型（LLM）深度融入推荐系统，不再局限于特征工程，而是直接利用LLM进行用户行为序列建模、跨域知识迁移和冷启动物品理解。这表明业界正从“LLM辅助推荐”向“LLM原生推荐”演进，核心挑战在于如何平衡模型容量与推理效率。; 多模态与长序列建模的工程化突破：针对短视频、直播等富媒体场景，业界开始探索更高效的多模态特征融合与用户长期行为序列建模方案。例如，通过解耦注意力机制或记忆网络，在可控的计算成本下，将用户数月的交互历史纳入模型，以捕捉动

AI 技术日报 - 2026-06-18

今日 AI 领域迎来历史性并购：SpaceX 以 600 亿美元全股票收购 Cursor，同日 Cursor 发布 Git 替代品 Origin，标志着 AI 编码工具从辅助角色跃升为关键基础设施。模型竞赛白热化：智谱 GLM-5.2 开源 744B 模型登顶智能指数，NVIDIA Nemotron 3 Ultra 以 6 倍推理吞吐引领 Agent 推理，Inclusion AI 发布万亿参数 Ling/Ring 2.6。Agent 安全与效率成焦点：AWS 发布按需安全检测 API，Pine AI 提出可编辑 KV 缓存新范式，Figma 分享 MCP 内部实战案例。

AI 技术日报 - 2026-06-17

今日 AI 领域迎来历史性并购：SpaceX 以 600 亿美元全股票收购 Cursor，成为 2026 年最大创业公司并购案，同日 Cursor 推出 Origin 挑战 GitHub。微软据传正探索用 DeepSeek 替代 OpenAI/Anthropic 以控制 Copilot Cowork 成本，而智谱 GLM-5.2 以 51 分登顶 AI 智能指数，开源 MIT 许可。产业层面，AI 公司 CEO 首次受邀参加 G7 峰会午餐会，标志 AI 正式进入地缘政治核心议程。

生成式推荐与多任务架构的深度融合：今日多篇论文（OneRank、OneBar、HoloRec）不约而同地将生成式或Transformer-native架构引入推荐核心环节，从精排到召回，试图用统一的生成式框架替代传统的多阶段级联设计，解决目标碎片化和信息瓶颈问题。; 挖掘被忽视的信号源：负行为与合成先验：工业界正积极从“数据”本身寻找增量。一方面，Beyond Positive Signals 论文系统性地将用户隐式负行为（跳过、低参与度）纳入序列建模，以极低成本带来显著AUC提升；另一方面，S

AI 技术日报 - 2026-06-16

今日 AI 领域监管与效率两大主题交织：美国当局以安全为由暂停 Anthropic 最先进模型 Fable 5 和 Mythos 5 的访问，联合创始人 Andrej Karpathy 因非美国公民身份被拒接触内部模型，引发对"主权 AI"政策的广泛争议。与此同时，AMD 发布 Ryzen AI Max+ 395，以 128GB 共享内存和 1,499 美元售价实现本地运行 235B 模型，推理性能据称超 RTX 5080 三倍，标志着消费级硬件与云 AI 订阅的性价比拐点。产业层面，Mistral AI 以 200 亿欧元估值融资，欧洲主权 AI 从叙事走向现实；而 'Agentjackin

AI 技术日报 - 2026-06-15

今日 AI 领域地缘政治风险加剧：美国政府直接指令 Anthropic 暂停 Fable 5/Mythos 5 对外国用户访问，出口管制从地域转向个人身份，MiniMax 随即宣布 M3 开源并强硬回应。同时，GitHub 分享 Copilot CLI 委派优化实践，NVIDIA Blackwell 在首个 Agentic AI 基础设施基准 AgentPerf 中领跑，微软 Project Ire Agent 成功自主识别恶意软件变种，Agent 工程正从概念走向生产级精细优化。

AI 技术日报 - 2026-06-14

上周的核心叙事可以浓缩成三个字——“够用了”。Claude Fable 5 的发布将通用模型能力拉到新高度，同时定价砍半。但更重要的是，围绕 Agent 的评估、安全、记忆和推理优化，工业界的交付物开始从“论文概念”变成“可运行的代码和框架”。Anthropic 的预填撤回风波、Kimi Work 的 300 个本地并行 Agent、MiniMax 的稀疏注意力内核——这些事件共同指向一个信号：2026 年上半年的 AI 工程化，正在从“能不能跑”转向“能不能可靠地跑”。

AI周报 2026-W24

本周推荐系统研究围绕三条技术主线展开：生成式推荐从架构完备走向工业级工程落地，其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克；LLM增强的推荐从离线推理迈向在线实时，谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理；召回排序系统的成本与效率优化出现系统性方案，小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储，同时CTR模型的残差路径设计开始突破缩放定律瓶颈。 主线1（生成式检索工程化）： 快手推出的OneRetrieval首次实现了可编辑的生成式检索，在替换倒排索引分支后显著提升订单量与CTR；Yandex的Gryphon引入联合训练的物品级评分组件，替换超过15个候选生成器与粗排阶段，召回量Recall@1000提升3.7%；京东的AdaGRPO通过自适应门控GRPO损失，将HR@10从11.01%提升至12.18%；Meta的Beyond Item IDs提出Global-Aware Compression Transformer，将峰值内存降低一个数量级；阿里的SSRLive通过动态语义ID融入用户-主播交互信号，线上观看时长+3.38%。 主线2（LLM推荐实时化）： 谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成，结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值；快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速，GMV+3.446%；DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征，在零售品类上CTR+2.1%；OPPO的ToolRec为小布助手（1.5亿月活）构建了双层级点击校准机制，CTR显著提升。 主线3（召回排序系统效率优化）： 小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群，硬件成本节省90%；DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%，且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans（2倍计算节省）；Meta的DUET将用户行为分离为点击与转化两个流，分别用专用Transformer预训练，离线NE降低0.38%；eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号，冷启动Recall+5.2%。

AI 技术日报 - 2026-06-13

LLM 深度融入推荐系统全链路：今日多篇论文展示了 LLM 不再仅是辅助工具，而是直接参与推荐核心环节。从 Google 的实时用户画像生成（召回/排序特征），到 CompRank 的 LLM 重排序，再到 TAA-k 优化 RAG 上下文选择，LLM 正在渗透召回、排序、重排等各个阶段，且开始关注工业级部署的效率和成本问题。; 生成式模型成为解决推荐顽疾的新范式：DiffCold 使用扩散模型解决冷启动中的“跷跷板困境”，通过生成式方法统一冷热物品的表示空间。这表明生成式模型（扩散模型、LLM

AI 技术日报 - 2026-06-12

LLM 的工业级落地：从"能不能用"到"怎么用好"：今日多篇论文聚焦于将 LLM 的语义理解能力以低延迟、低成本的方式融入工业推荐系统。快手提出的 AIR 框架通过离线推理+在线检索组合实现 400 倍加速，是 LLM 在跨域推荐场景中成功落地的典型案例，证明了 LLM 在工业界不再是"空中楼阁"。; 长序列建模的"记忆革命"：从压缩到解耦：针对长序列推荐中线性注意力导致的语义状态沉没问题，快手提出的 SinkRec 通过外部化记忆模块，将重复行为模式从状态中解耦出来，让模型专注于动态变化。这种

AI 技术日报 - 2026-06-11

生成式推荐进入精细化调优阶段：今日多篇论文聚焦于生成式推荐（GR）的落地痛点。从京东的AdaGRPO（自适应门控GRPO解决奖励模型噪声）到Yandex的Gryphon（统一SID生成与物品级评分解决序列似然与相关性目标不一致），再到山大的PRO（理论分析索引-解码间隙），业界正从“能否用GR”转向“如何让GR更鲁棒、更精准、更简化系统”。核心趋势是：在GR框架内引入更精细的控制机制（门控、评分、理论指导），而非推翻范式。; 长序列建模与语义化ID成为工业级推荐标配：Meta的论文展示了在十亿用

AI 技术日报 - 2026-06-10

生成式推荐进入深水区：动态语义ID成为核心战场 今日多篇论文（SSRLive、DREAM、CaLIR）聚焦于生成式推荐中的语义ID（SID）问题。业界共识已从“能否用SID做推荐”转向“如何让SID动态适应内容变化和冷启动”。SSRLive提出动态SID解决直播内容快速变化，DREAM通过三阶段框架解决冷启动SID分配，CaLIR则用类别引导的隐式意图推理弥补查询与SID的语义鸿沟。这表明生成式推荐正从静态范式向动态、自适应范式演进。; LLM+RAG成为跨域冷启动的标配方案 DoorDash的

AI 技术日报 - 2026-06-09

今日 AI 领域呈现"中美模型竞争白热化"与"硬件生态深度绑定"两大主线：中国模型在 OpenRouter 上首次全面超越美国模型，Kimi K2.5、MiniMax M2.5 和 DeepSeek V4 成为关键驱动力。硬件层面，NVIDIA 与 SK Hynix 达成多年内存技术合作，黄仁勋警告芯片短缺将持续数年。同时，OpenAI 定制芯片负责人 Clive Chan 跳槽 Anthropic，AI 芯片人才争夺战升级。Codex 推出"每日一人 10 倍用量"挑战，Slack 揭秘万亿级消息搜索架构，GPU Direct Storage 实战指南展示检查点从 5 分钟降至 40 秒的突

AI 技术日报 - 2026-06-08

今日 AI 领域在安全、效率与融资三个维度齐头并进。OpenAI 推出 ChatGPT Lockdown Mode，以确定性机制阻断 Prompt 注入数据窃取，为 Agent 安全提供关键防线。MiniMax M3 在代码审计中以 $0.07 成本与 Claude Opus 持平，再次验证低成本模型潜力。AI 编码初创公司 Lovable 以 120 亿美元估值融资，AI 债务融资市场预计达 2500-3000 亿美元，产业金融化趋势加速。同时，DeployBench 基准揭示 Agent 在自主部署上的显著差距，而 Agentic AI Worm 概念则敲响自适应恶意软件的新警钟。

AI 技术日报 - 2026-06-07

本周的叙事可以用一个词概括：兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中，将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”，并透露出OpenAI关系的新平衡。同时，NVIDIA、Google、微软在推理侧密集出货：Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速，Gemma 4推出12B端侧多模态模型，微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域，Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟，而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面，Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后，OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案，Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。

AI周报 2026-W23

本周推荐系统研究围绕三条技术主线展开。 主线1：生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一（线上engagement +1%，延迟-11.1%），跳出了生成式推荐仅做检索的边界。快手的OneReason（线上部署）则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失，并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是：生成式推荐的核心瓶颈已从模型架构转移至数据形态（语义ID）与系统协同。 主线2：跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep（服务4亿+用户）用MLLM推理蒸馏将短视频用户兴趣迁移至直播，冷启动参与度显著提升。Meta的Quantizing Intent论文（线上AUC +1.522%冷启）则将有机feed行为量化为语义ID注入广告排序，证明行为富集度决定跨域迁移质量。两篇的共同发现是：跨域迁移的关键不在对齐特征，而在构建可迁移的语义表征。 主线3：LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO（132天A/B，销量+9.5%）将偏好优化引入销售线索评分，解决稀疏监督和漏斗层级问题。快手的Taiji（CTR +12.4%，收入+15.2%）提出帕累托最优策略优化，在语义与ID之间找到最优权衡点。Syft的DynaTree（生存率提升1.5倍）则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明，LLM在推荐中的应用正从“通用方案”走向“场景定制”。

AI 技术日报 - 2026-06-06

LLM 深度融入推荐全链路：今日论文显示，LLM 的应用已从简单的特征增强，深入到精排（HPRO）、召回（RGCD-Rep）、特征工程（DSIRM）等核心环节。方法上不再局限于文本生成，而是利用 LLM 的语义理解能力进行判别式排序、知识蒸馏和偏好建模，工业落地验证效果显著。; 跨域与冷启动问题的新解法：多篇论文聚焦于利用富域（如短视频）的丰富信号，通过可迁移表示学习（RGCD-Rep）或偏好对生成（HPRO）来缓解目标域（如直播、销售线索）的稀疏监督和冷启动问题。核心思路是借助 LLM/MLL

AI 技术日报 - 2026-06-05

LLM 增强推荐走向工业落地与精细化对齐：今日多篇论文聚焦 LLM 与推荐系统的深度融合，从概念验证迈向大规模工业部署。快手的 Taiji 框架直接部署于日活 4 亿+的广告平台，通过帕累托最优策略优化（POPO）解决了 LLM 语义空间与推荐 ID 空间的权衡问题。同时，腾讯的 R3 和中科院的 BAHSD 分别从 Agent 技能检索和黑盒蒸馏角度，探索了 LLM 在推荐系统不同环节的精细化应用，体现了业界对 LLM 落地可行性和收益的务实追求。; 序列推荐建模向多尺度、自适应与可解释性演进

AI 技术日报 - 2026-06-04

生成式推荐进入"全栈统一"与"表示优化"深水区：今日多篇论文（UniPinRec、PrefixMem、DRQ）聚焦于生成式推荐（Semantic ID）的工业化落地。趋势从"用LLM生成推荐"转向"如何高效、鲁棒地表示和利用Semantic ID"，包括统一检索与排序的全栈架构（UniPinRec）、为SID设计专用编码器（PrefixMem）、以及解耦量化提升鲁棒性（DRQ）。这表明生成式推荐正从概念验证走向大规模系统部署，核心瓶颈已从"能否用"变为"如何用好"。; 跨域/跨模态信号迁移成为工

AI 技术日报 - 2026-06-03

Agent 驱动的检索与推理：今日多篇论文探索了 Agent 范式在推荐系统中的应用。DynaTree 利用多 Agent 协作构建离线检索树，实现高效的在线新闻检索；DCRC 则训练一个数据为中心的 Agent 来编译可执行的推理程序，以解决金融 QA 中的数值幻觉问题。这表明 Agent 正在从单纯的对话式交互，向更复杂的、结构化的离线规划与在线执行解耦的方向演进。; 从“模型为中心”到“数据/系统为中心”的范式转移：多篇论文不再单纯优化模型架构，而是从数据或系统层面寻求突破。V-SPLAD

AI 技术日报 - 2026-06-02

今日 AI 领域迎来多个重磅发布：MiniMax 开源首个集编码、Agent、1M 上下文与原生多模态的 M3 模型，NVIDIA 正式进军 PC 芯片市场发布 N1X SoC，同时 Sam Altman 宣布 OpenAI Robotics 招聘。产业层面，McKinsey 预测推理计算 2027 年将超过训练，Peter Diamandis 称 Opus 4.8 已超越其设定的 AGI 阈值。Agent 生态持续繁荣，SkillOpt 开源、CC Workflow Studio 上线、Hermes Agent 支持 Windows，AI 正从"能力展示"全面走向"生产级部署"。

AI 技术日报 - 2026-06-01

今日 AI 领域在基础设施与安全实战层面均有重大进展：vLLM v0.22.0 发布，新增 DeepSeek V4 支持与 Cutlass FP8 端到端延迟降低 28.9%；NVIDIA 推出 DynoSim 推理栈模拟器，比真实时间快 1500 倍。安全方面，攻击者首次使用 LLM Agent 进行真实后渗透攻击，全程仅一小时。此外，Qualcomm 与字节跳动达成数据中心 AI 推理 ASIC 定制协议，股价创 52 周新高；Databricks 推出 Model Units 定价模式，将推理成本与 GPU 实例解耦。

AI 技术日报 - 2026-05-31

本周 AI 产业的核心叙事围绕一条主线展开：Agent 从“帮开发者写代码”正式演变为“在后台独立工作”，而支撑这一转变的推理效率、安全评估和资本军备竞赛同步加速。Anthropic 的 Opus 4.8 和 Dynamic Workflows 将并行子 Agent 数量推到数百个，OpenAI 的 Codex 扩展至 Windows 平台并支持移动端远程监控，xAI 也以极低定价推出专长 agentic coding 的 grok-build-0.1——这些都不是“更好的 Tab 补全”，而是让 Agent 以异步队友身份参与开发的新范式。Latent Space 对 Cognition 和 OpenInspect 创始人的访谈系统梳理了从 Copilot (第一波) 到本地 Agent (第二波) 再到异步 Agent (第三波) 的演进，其中 Cursor CEO 提到的“第三时代”在本周被多家实际操作验证。 与范式并行的是资本对 Agent 赛道的押注：Anthropic 完成 965 亿美元 H 轮（估值 9650 亿），营收年化 470 亿；Cognition 以 260 亿估值融得 10 亿美元 D 轮，预计年底 ARR 超 10 亿。模型层同样密集更新——Claude Opus 4.8 在多项编码和 Agent 基准上超越 GPT-5.5，诚实性提升约 4 倍；MiniMax-M2 以 9.8B 激活参数实现 229.9B 总参的 MoE 性能；Qwen-VLA 则将视觉-语言-动作统一进单一模型，在 7 个机器人基准上达到 SOTA。推理效率方面，vLLM 集成 fastokens 用 Rust BPE tokenizer 消除长上下文瓶颈，MobileMoE 在商品手机上实现 1.8–3.8× 加速，Orbit 基础设施（tweet）甚至能在单节点 8×B200 上训练万亿参数模型的 RL。安全侧同样有进展，OpenAI 发布第三方评估共享手册，Redpanda 提出 out-of-band 元数据通道架构用于 Agent 安全治理，Onyx Security 推出企业级 Agent 监控。 以下是四个主题的详细分析。

AI周报 2026-W22

本周推荐系统研究围绕三条技术主线展开。 工业级知识蒸馏进入迁移率量化时代： 字节跳动、Meta、微软、阿里分别展示了大规模蒸馏框架。字节的Rec-Distill（24B教师、20K序列）实现蒸馏迁移率>60%，阿里GPlan将LLM推理压缩为隐式token，Meta的LoopFM通过结构化中间表示让蒸馏迁移率翻倍，微软HARNESS-LM以190M参数恢复教师98%精度。四篇的共同指向是——蒸馏已经不只是模型压缩手段，而是把大模型能力“货币化”为可量化的业务指标。 生成式推荐从项目生成走向意图序列与条件生成： 阿里QGS在Quark搜索部署conditional next-item预测，Netflix揭示1B参数生成式推荐中不同任务的缩放天花板，清华SID碰撞分析发现Hit@10被高估103%。三篇共同说明——生成式推荐正在进入精细化评估和条件控制阶段。 推荐系统缩放从“堆参数”转向多维协同与测试时计算： Coupang系统研究CVR模型在骨干、嵌入、数据三个维度的可加缩放效应；阿里UTTSI首次将test-time compute引入CTR，无模型修改下CTR提升5.3%；Meta的rank-aware decomposition使DLRM吞吐量提升87.5%。缩放的核心矛盾已从“能不能大”变为“怎么用得巧”。

AI 技术日报 - 2026-05-30

LLM 从辅助信号走向核心排序引擎：今日多篇论文（MixRAGRec, LRanker, DoorDash）展示了 LLM 从离线生成标签、辅助特征，到直接参与召回和精排的演进。核心挑战在于如何在大规模候选集和低延迟约束下，高效利用 LLM 的语义理解能力，而非简单替换现有模型。; 推理优化成为工业落地关键：Meta 的秩感知分解和 Pinterest 的 LLM 辅助预测器，都指向一个共同目标——在不牺牲效果的前提下，大幅降低计算成本。这表明，当学术界在探索 LLM 的潜力时，工业界更关注如何

AI 技术日报 - 2026-05-29

LLM 深度融入推荐全链路：今日多篇论文（MuChator、L2Rec）展示了 LLM 不再仅是特征提取器，而是作为核心推理引擎，通过预训练注入领域知识、指令微调对齐用户意图、强化学习对齐偏好，直接参与召回与排序决策。工业界已验证其线上效果，LLM for Rec 正从实验走向大规模部署。; 两阶段排序的端到端训练突破：CA-PG 论文针对两阶段排序中早期排序器（ESR）难以端到端训练的痛点，提出信用分配策略梯度，有效降低训练方差并加速收敛。这为工业界优化全链路（召回+排序）提供了新的理论工具，