公告
📣 TikTok 电商基础模型组
🎉【持续招聘中】🎉
致力于打造下一代推荐系统
欢迎联系
 
From Next-One to Next-N:这才是推荐系统的范式改变

推荐系统 20 年来方法换了六七轮,但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥,根源都在这里。真正的范式改变不是换方法,而是重新定义问题:从 Next One 到 Next N。

让 Claude Code 成功率翻倍的 10 个简单习惯

从 context 管理到 harness 设计,10 个让你的 coding agent 告别 context rot、成功率翻倍的实用习惯。

Superpowers-ML:用 Superpowers 给 ML 实验做的 Harness Engineering

Agent 写代码很快,但做 ML 实验却异常困难——代码写完只是开始,真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线,一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML:将软件工程的 TDD、code review、verification 延伸到 ML 领域,通过四层 Validation Pyramid 在几分钟内抓出问题,用 Watchdog 守护长时间训练,让 agent 每次出手都更准确。

Claude Code 使用技巧与 Agentic Engineering

从 Vibe Coding 到 Agentic Engineering 的演进,系统梳理 Claude Code 命令体系、Skills 系统、Hooks、Subagents、MCP 服务器、辅助工具生态及核心工作流。

生成式推荐 (Generative Recommendation) 工业界深度 Survey

覆盖 101 篇核心论文(58 篇工业界 + 43 篇学术精选),系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心,深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

Vibe Coding 核心心法:管 Agent,如带团队

这不是一篇教大家怎么实操文章,不谈具体的工具和技术,我们来谈谈Vibe Coding的心法。 Vibe Coding 本质是利用 Agent 编码,Agent 背后是 LLM,LLM 是人类的”幽灵“,这出自 Karpathy 2025 年终总结**:”we're not evolving animals. We're summoning ghosts.“,**语言是人类世界的投影,LLM 是人类的幽灵。 工具和技术层出不穷,这是历史上从未出现过的新技术,没有人有经验。但是人性是一致的,拿捏住 Agent 的"人性",把 Agent 当人来管,会让Vibe Coding 从迷茫走向有迹可循。

TCA 51%,MFU 不足 8%——GPU 的隐藏性能损耗

TCA 是 GPU 的核心算力部件 Tensor Core 的时间周期的激活比率,它和 MFU 理论上应当非常接近,日常中会出现 10%~20% 的 GAP,相对稳定,我们就以观察 TCA 为准了。 本文的契机是,当我尝试优化 MFU,拿TCA 作为一个辅助的观察指标,我发现他们之间的 GAP 在一些特殊情况下是不稳定的。由此开始拆解MFU 和 TCA 的 GAP,发现了GPU 的时钟频率在变,矩阵维度不是cuBLAS选择的 kernel shape 的整数倍导致的padding 计算浪费,以及最诡异Flash Attention 2 的 TCA 是 51%,MFU 不到 8%,时钟频率矫正后TCA稳定的是 MFU的 4 倍!

Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了35倍

NVIDIA 最近的博客文章显示,Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了 35 倍(每 token 成本大幅崩盘),这不是孤立的巧合,而是符合 莱特定律(Wright's Law)的典型表现。

算法工程师的核心能力是什么

谜底就在谜面上。 "算法工程师",做个语法分析,这是个偏正结构。"算法"是定语,"工程师"才是中心语。定语修饰中心语,中心语决定你的身份。 算法工程师核心能力就是"工程能力"。 就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作,后面的中心语才是你安身立命的东西。 定语决定你的赛道,中心语决定你的天花板。

算法组织熵减与Scaling Law的悖论

我们先思考下,一个公司组织里,为什么需要 Leader,需要层级?任何一个超过几十人的组织都需要架构设计。这件事如此普遍,以至于我们很少追问:为什么需要组织架构?组织架构本质上在解决什么问题? 表面上看,组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层,会发现一个有趣的视角:一个组织本质上是一个分布式信息处理系统。 外部信息进来,内部处理,输出决策和行动。组织架构定义的,其实是信息如何在这个系统里流动——谁产生信息,谁消费信息,信息经过哪些节点,在哪里被过滤,在哪里被聚合。

2026:推荐系统 All-In Transformer 的元年

2017 年,Ilya Sutskever 读到《Attention Is All You Need》时,立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线,全面转向 Transformer,催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天,推荐系统终于走到了同样的路口。 2024 年之前,推荐领域有了 HSTU、TIGER 这样的工作,但大多数团队还在观望。2025 年,我观察到一个明显的转变:大家开始认真地把排序模型 Dense Scaling Up,搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔,切换过程持续了一两年,之后再没人回头。我的判断是,2026 年将是推荐系统 All-In Transformer 的一年,不改变就落后。

为什么LayerNorm+AdamW成了深度网络的标准配置?从尺度不变性到梯度动力学

深度网络依赖LayerNorm(RMSNorm),这创造了局部的尺度不变性(Scale Invariance),它带了独特的梯度动力学(Gradient Dynamics)。在这个独特的动力学场域中,我们关于机器学习的直觉被颠覆了,Norm的物理含义从特征强度表示变成了学习进度的旋钮,Norm理论上稳步增加,SGD自带学习率衰减,但是刹车踩的太狠导致了学习的早停,而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配:Adam做到了梯度的步长恒定,有效学习率的平缓刹车;Warmup来处理训练早期的权重过小(梯度爆炸)和二阶矩估计不准的问题;AdamW修正了L2正则的问题,引入Weight Decay,把“方向更新”和“进度控制”拆成两个干净的旋钮。