Recsys Frontier | 分享推荐系统的技术理解，追踪推荐系统的前沿动态·

|

推荐系统 20 年来方法换了六七轮，但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥，根源都在这里。真正的范式改变不是换方法，而是重新定义问题：从 Next One 到 Next N。

文章详情

|

Agentic Engineering

Harness Engineering

从 context 管理到 harness 设计，10 个让你的 coding agent 告别 context rot、成功率翻倍的实用习惯。

文章详情

|

Agentic Engineering

Harness Engineering

Agent 写代码很快，但做 ML 实验却异常困难——代码写完只是开始，真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线，一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML：将软件工程的 TDD、code review、verification 延伸到 ML 领域，通过四层 Validation Pyramid 在几分钟内抓出问题，用 Watchdog 守护长时间训练，让 agent 每次出手都更准确。

|

从 Vibe Coding 到 Agentic Engineering 的演进，系统梳理 Claude Code 命令体系、Skills 系统、Hooks、Subagents、MCP 服务器、辅助工具生态及核心工作流。

|

覆盖 101 篇核心论文（58 篇工业界 + 43 篇学术精选），系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心，深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

文章详情

|

Agentic Engineering

思考

这不是一篇教大家怎么实操文章，不谈具体的工具和技术，我们来谈谈Vibe Coding的心法。 Vibe Coding 本质是利用 Agent 编码，Agent 背后是 LLM，LLM 是人类的”幽灵“，这出自 Karpathy 2025 年终总结**：”we're not evolving animals. We're summoning ghosts.“，**语言是人类世界的投影，LLM 是人类的幽灵。工具和技术层出不穷，这是历史上从未出现过的新技术，没有人有经验。但是人性是一致的，拿捏住 Agent 的"人性"，把 Agent 当人来管，会让Vibe Coding 从迷茫走向有迹可循。

文章详情

|

LLM

TCA 是 GPU 的核心算力部件 Tensor Core 的时间周期的激活比率，它和 MFU 理论上应当非常接近，日常中会出现 10%～20% 的 GAP，相对稳定，我们就以观察 TCA 为准了。本文的契机是，当我尝试优化 MFU，拿TCA 作为一个辅助的观察指标，我发现他们之间的 GAP 在一些特殊情况下是不稳定的。由此开始拆解MFU 和 TCA 的 GAP，发现了GPU 的时钟频率在变，矩阵维度不是cuBLAS选择的 kernel shape 的整数倍导致的padding 计算浪费，以及最诡异Flash Attention 2 的 TCA 是 51%，MFU 不到 8%，时钟频率矫正后TCA稳定的是 MFU的 4 倍！

文章详情

|

思考

NVIDIA 最近的博客文章显示，Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了 35 倍（每 token 成本大幅崩盘），这不是孤立的巧合，而是符合莱特定律（Wright's Law）的典型表现。

文章详情

|

推荐系统

思考

谜底就在谜面上。 "算法工程师"，做个语法分析，这是个偏正结构。"算法"是定语，"工程师"才是中心语。定语修饰中心语，中心语决定你的身份。算法工程师核心能力就是"工程能力"。就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作，后面的中心语才是你安身立命的东西。定语决定你的赛道，中心语决定你的天花板。

|

我们先思考下，一个公司组织里，为什么需要 Leader，需要层级？任何一个超过几十人的组织都需要架构设计。这件事如此普遍，以至于我们很少追问：为什么需要组织架构？组织架构本质上在解决什么问题？表面上看，组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层，会发现一个有趣的视角：一个组织本质上是一个分布式信息处理系统。外部信息进来，内部处理，输出决策和行动。组织架构定义的，其实是信息如何在这个系统里流动——谁产生信息，谁消费信息，信息经过哪些节点，在哪里被过滤，在哪里被聚合。

|

2017 年，Ilya Sutskever 读到《Attention Is All You Need》时，立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线，全面转向 Transformer，催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天，推荐系统终于走到了同样的路口。 2024 年之前，推荐领域有了 HSTU、TIGER 这样的工作，但大多数团队还在观望。2025 年，我观察到一个明显的转变：大家开始认真地把排序模型 Dense Scaling Up，搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔，切换过程持续了一两年，之后再没人回头。我的判断是，2026 年将是推荐系统 All-In Transformer 的一年，不改变就落后。

文章详情

|

深度学习

论文

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

文章详情