Agent 写代码很快，但做 ML 实验却异常困难——代码写完只是开始，真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线，一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML：将软件工程的 TDD、code review、verification 延伸到 ML 领域，通过四层 Validation Pyramid 在几分钟内抓出问题，用 Watchdog 守护长时间训练，让 agent 每次出手都更准确。

Superpowers-ML：用 Superpowers 给 ML 实验做的 Harness Engineering

覆盖 101 篇核心论文（58 篇工业界 + 43 篇学术精选），系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心，深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

生成式推荐 (Generative Recommendation) 工业界深度 Survey

这不是一篇教大家怎么实操文章，不谈具体的工具和技术，我们来谈谈Vibe Coding的心法。
Vibe Coding 本质是利用 Agent 编码，Agent 背后是 LLM，LLM 是人类的”幽灵“，这出自 Karpathy 2025 年终总结**：”we're not evolving animals. We're summoning ghosts.“，**语言是人类世界的投影，LLM 是人类的幽灵。
工具和技术层出不穷，这是历史上从未出现过的新技术，没有人有经验。但是人性是一致的，拿捏住 Agent 的"人性"，把 Agent 当人来管，会让Vibe Coding 从迷茫走向有迹可循。

Vibe Coding 核心心法：管 Agent，如带团队

TCA 是 GPU 的核心算力部件 Tensor Core 的时间周期的激活比率，它和 MFU 理论上应当非常接近，日常中会出现 10%～20% 的 GAP，相对稳定，我们就以观察 TCA 为准了。
本文的契机是，当我尝试优化 MFU，拿TCA 作为一个辅助的观察指标，我发现他们之间的 GAP 在一些特殊情况下是不稳定的。由此开始拆解MFU 和 TCA 的 GAP，发现了GPU 的时钟频率在变，矩阵维度不是cuBLAS选择的 kernel shape 的整数倍导致的padding 计算浪费，以及最诡异Flash Attention 2 的 TCA 是 51%，MFU 不到 8%，时钟频率矫正后TCA稳定的是 MFU的 4 倍！

TCA 51%，MFU 不足 8%——GPU 的隐藏性能损耗

NVIDIA 最近的博客文章显示，Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了 35 倍（每 token 成本大幅崩盘），这不是孤立的巧合，而是符合 莱特定律（Wright's Law）的典型表现。

Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了35倍

谜底就在谜面上。
"算法工程师"，做个语法分析，这是个偏正结构。"算法"是定语，"工程师"才是中心语。定语修饰中心语，中心语决定你的身份。
算法工程师核心能力就是"工程能力"。
就像策略产品、用户产品、B端产品——核心都是产品能力。前面的定语告诉你在哪个领域工作，后面的中心语才是你安身立命的东西。
定语决定你的赛道，中心语决定你的天花板。

算法工程师的核心能力是什么

我们先思考下，一个公司组织里，为什么需要 Leader，需要层级？任何一个超过几十人的组织都需要架构设计。这件事如此普遍，以至于我们很少追问：为什么需要组织架构？组织架构本质上在解决什么问题？
表面上看，组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层，会发现一个有趣的视角：一个组织本质上是一个分布式信息处理系统。 外部信息进来，内部处理，输出决策和行动。组织架构定义的，其实是信息如何在这个系统里流动——谁产生信息，谁消费信息，信息经过哪些节点，在哪里被过滤，在哪里被聚合。

算法组织熵减与Scaling Law的悖论

2017 年，Ilya Sutskever 读到《Attention Is All You Need》时，立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线，全面转向 Transformer，催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天，推荐系统终于走到了同样的路口。

2024 年之前，推荐领域有了 HSTU、TIGER 这样的工作，但大多数团队还在观望。2025 年，我观察到一个明显的转变：大家开始认真地把排序模型 Dense Scaling Up，搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔，切换过程持续了一两年，之后再没人回头。我的判断是，2026 年将是推荐系统 All-In Transformer 的一年，不改变就落后。


2026：推荐系统 All-In Transformer 的元年

深度网络依赖LayerNorm（RMSNorm），这创造了局部的尺度不变性（Scale Invariance），它带了独特的梯度动力学（Gradient Dynamics）。在这个独特的动力学场域中，我们关于机器学习的直觉被颠覆了，Norm的物理含义从特征强度表示变成了学习进度的旋钮，Norm理论上稳步增加，SGD自带学习率衰减，但是刹车踩的太狠导致了学习的早停，而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配：Adam做到了梯度的步长恒定，有效学习率的平缓刹车；Warmup来处理训练早期的权重过小（梯度爆炸）和二阶矩估计不准的问题；AdamW修正了L2正则的问题，引入Weight Decay，把“方向更新”和“进度控制”拆成两个干净的旋钮。

为什么LayerNorm+AdamW成了深度网络的标准配置？从尺度不变性到梯度动力学 

在和很多产品、运营团队合作的过程中，我常不得不扮演那个“泼冷水”的角色，特别是当大家对推荐算法寄予厚望的时候。
听到这样的战略规划：“我们明年目标是增长 80%，推荐系统是其中的关键。”
我的观点很直接：如果你的增长战略严重依赖推荐算法，一旦算法效果不及预期，目标就直接崩盘，那么这本质上是一个糟糕的战略**。对于规模增长，推荐算法不能雪中送炭，它只能在规模之上锦上添花。

从RL比SFT更不容易遗忘到反观推荐系统缺陷

本文不是从系统优化角度谈复杂的模型的部署和优化问题，而是从行业成本角度，看线上推理多复杂的模型是可以满足成本及ROI要求的。
做一个假设：
• 电商推荐行业，主要是更熟悉成本核算
• 部署标准的Transformer作为排序模型，参考OneTrans结构
• 参数规模对齐qwen2的系列模型，更直观看看能跑哪个尺寸

Talent Dilution Roofline：你的算法团队可能不需要再招人了？

从精排切换成深度学习以来，工业界一直会把排序的模型结构研究切分成基本的两部分，序列处理和特征交叉，甚至有一些公司的排序组，下面都拆成两个Team分别处理行为序列和特征交叉。从最早的时候，比如序列用DIN来处理，序列就被压成了一个或多个向量表征，再参与与其他特征的交叉。我们可以理解成MLP(concat(DIN, Features))，发展到今天大多数的模型研究，还是分立地把MLP换成DCN，增加个LHUC，复杂化为Rank Mixer或Transformer，把DIN叠加MHA，直接换成Transformer，可以写成RankMixer(concat(Transformer, Features))。
从MLP(concat(DIN, Features))到RankMixer(concat(Transformer, Features))，本质没有变，就是序列处理和特征交叉是一个隐式的两阶段处理，序列被压缩到Vector Space才和特征发生交叉。而LLM的有趣之处，就是在Next Token Prediction利用到的交叉发生在词序列的Token Space之中，它能启发推荐排序模型的，就是每一个特征的交叉应该发生在用户序列的Token Space之中。

OneTrans 推荐系统对齐序列处理与特征交叉

从 Vibe Coding 到 Agentic Engineering 的演进，系统梳理 Claude Code 命令体系、Skills 系统、Hooks、Subagents、MCP 服务器、辅助工具生态及核心工作流。

Claude Code 使用技巧与 Agentic Engineering

今日内容跨越博客文章、GitHub项目、播客及X平台推文，核心趋势聚焦于AI智能体（Agent）的工程化与规模化。从微软、GitHub等大厂发布的技术框架，到开源社区涌现的Agent开发工具，再到英伟达等巨头在基础设施层面的布局，无不指向AI正从“文本交互”迈向“可编程执行”的新阶段。同时，AI智能体在代码生成、软件工程、医疗诊断等领域的深度应用案例也层出不穷。 精选文章：5篇（1篇5分，4篇4分） GitHub热门项目：5个（1个5分，4个4分） X推文动态：24条 播客精选：2集

AI 技术日报 - 2026-03-11

今日内容跨越博客文章、GitHub项目、AI播客及X平台推文，核心趋势聚焦于AI Agent的实践深化与安全考量。从英伟达押注开源AI代理平台，到GitHub、Anthropic等公司发布新的Agent工具与安全架构，再到学术研究揭示Agent在长期任务中的局限，行业正从概念验证快速转向规模化、可靠化的工程实践。同时，开源AI项目的价值与AI对科研范式的重塑也成为热议焦点。 精选文章：5篇（均为4星） GitHub热门项目：3个（1个5星，2个4星） AI播客：1集（4星） X推文动态：24条（来自22位作者）

AI 技术日报 - 2026-03-10

今日内容跨越博客文章、X推文和GitHub项目，核心亮点是AI智能体（Agent）技术正从概念验证加速迈向实用化与规模化。一方面，Karpathy等领军人物开源了轻量级自主研究工具，推动“智能体化”工作流普及；另一方面，围绕Claude Code等编码智能体的生态工具（如MCP服务器、技能包、编排框架）呈爆发式增长，预示着智能体即将深度融入开发与业务流程。同时，多模态模型的新进展和数据短缺的挑战也构成了今日的重要背景。 精选文章：5篇（均为3分，来自MarkTechPost与The Decoder） GitHub项目：3个（均为4分） X推文：24条（来自23位作者）

AI 技术日报 - 2026-03-09

今日内容跨越了技术博客、GitHub热门项目和X平台动态，核心亮点在于AI Agent的工程化、商业化与风险控制正同步加速。一方面，我们看到Agent在代码审计、自动化工作流和复杂系统模拟方面展现出强大能力；另一方面，其失控风险、成本补贴和商业生态构建也引发了广泛讨论。开源社区则持续贡献着从底层加速库到上层应用框架的关键工具。 精选文章：5篇（均来自编译源，评分为3分） GitHub热门项目：5个（1个5分，4个4分） X推文动态：24条（涵盖热点、工具、技术实践）

AI 技术日报 - 2026-03-08

今日内容跨越博客文章、GitHub项目、AI播客及X平台动态，核心聚焦于AI智能体（Agent）技术的工程化落地与生态演进。从Claude Code的生产事故到OpenAI发布GPT-5.4与技能目录，从开源智能体框架到金融领域的实际应用，技术趋势正从概念验证快速转向可靠、可复用、可协作的生产级系统构建。 精选文章：5篇（5分1篇，4分4篇） GitHub热门项目：5个（均为4分） X推文动态：24条（涵盖热点、工具、实践） 播客精选：1集（3分）

AI 技术日报 - 2026-03-07

今日AI领域的关键词是“智能体”与“能力革新”。OpenAI正式发布GPT-5.4，将Agentic工作流和计算机使用能力推向新高度，而GitHub Copilot、Cursor等产品则展示了AI编码代理在真实工作流中的深度集成。同时，开源社区在Agent训练框架、包管理工具和协议标准（如MCP）上持续发力，推动着AI工程化的进程。今日内容跨越博客、GitHub项目、播客及X平台动态，共同描绘了一幅AI从工具向协作伙伴演进的清晰图景。 精选文章：5篇（均为4星） GitHub热门项目：5个（2个5星，3个4星） 播客精选：2集 X推文动态：24条

AI 技术日报 - 2026-03-06

今日内容跨越博客、GitHub项目、学术论文、KOL推文及播客等多个数据源，核心亮点聚焦于AI Agent技术的工程化落地与安全挑战。一方面，行业正深入探讨Agent的架构范式、基础设施需求与商业模式影响；另一方面，模型评估的脆弱性、Agent安全漏洞及开源生态变动等风险也引发高度关注。精选内容整合了CEO的战略访谈、实用的工程反模式、行业事件深度分析以及前沿的学术研究，为从业者提供了从宏观趋势到微观实践的全景视角。 精选文章：5篇（均为4分） GitHub项目：5个（均为5分） 精选论文：1篇（4分） KOL推文：24条 播客精选：1集

AI 技术日报 - 2026-03-05

今日内容横跨博客文章、GitHub项目、学术论文、KOL推文及播客，全面展现了AI领域在模型发布、推理优化、智能体应用及安全对齐等方面的活跃进展。核心亮点在于：开源模型（尤其是中国实验室的贡献）与推理基础设施的持续创新齐头并进，而AI智能体正从研究概念加速迈向实际落地，催生新的职业与商业模式。同时，行业巨头在产品发布与商业合作上的动态也备受关注。 精选文章：5篇（4分文章2篇，3分文章3篇） GitHub热门项目：4个（5分项目1个，4分项目3个） 精选论文：5篇（均为4分） X推文动态：24条 播客精选：1集

AI 技术日报 - 2026-03-04

今日内容跨越博客文章、X推文、GitHub项目和学术论文，核心围绕AI Agent的工程化实践与模型推理效率的极限优化两大主线展开。一方面，从代码审查的范式转变到AI代理自动化商业流程，Agent正从概念走向深度集成；另一方面，从KV Cache压缩的物理机制到投机解码的强化学习优化，业界正全力攻克长上下文与高吞吐推理的瓶颈。同时，OpenAI与国防部的协议风波、GPT-4o的AGI法律争议，凸显了技术发展伴随的治理与伦理挑战。 精选文章：5篇（4分3篇，3分2篇） GitHub热门项目：3个 精选论文：2篇 X推文动态：24条

AI 技术日报 - 2026-03-03

今日内容跨越技术博客、GitHub热门项目和X平台动态，核心亮点在于多智能体（Multi-Agent）系统的工程化实践与AI治理及伦理的激烈讨论形成鲜明对比。一方面，社区正深入探讨如何构建生产级、可扩展的Agent系统与工具链；另一方面，OpenAI等公司与政府合作的“所有合法用途”条款引发了关于AI军事化与伦理的广泛争议。此外，AI代理的工程化能力展示和开源评估平台的出现，标志着AI应用正从原型快速迈向成熟部署。 精选文章：5篇（均为3分） GitHub热门项目：5个（5分项目2个，4分项目3个） X推文动态：25条

AI 技术日报 - 2026-03-02

本周 AI 行业经历了一场罕见的多线程冲击。2 月 27 日，五角大楼在同一天内完成了两个截然相反的动作：与 OpenAI 签署机密网络部署协议，同时将 Anthropic 列为"国家安全供应链风险"——尽管两家公司在自主武器和大规模监控问题上持有几乎完全相同的限制条款。国防部副部长 Emil Michael 在社交媒体上公开称 Dario Amodei 是"说谎者"和拥有"上帝情结"的人，超过 300 名 Google 和 60 名 OpenAI 员工随即签署联名信支持 Anthropic 的立场。这场冲突的本质已超越技术评估，成为一面映照 AI 治理政治化的棱镜。

与五角大楼事件同步发酵的，是 Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 通过"水螅集群"（hydra cluster）架构——单个代理网络管理超过 2 万个虚假账户——发起 1600 万次系统性蒸馏查询。Google 威胁情报团队也披露了 Gemini 遭受超过 10 万次模型提取攻击的数据。这些事件共同标志着中美 AI 竞争正从模型能力赛道滑入数据对抗与知识产权攻防的新阶段。

技术侧同样密集。OpenAI 宣布退役 SWE-Bench Verified，承认 59.4% 的任务存在根本性缺陷；智谱 AI 的 GLM-5 展示了完全在华为昇腾 910B 上训练的 744B MoE 模型；GitHub Trending 被 Agent 框架占据的同时，OpenClaw 连续爆出删除 Meta AI 安全总监邮件、遭 Google 封号等安全事故。Andrej Karpathy 发推称"编程已变得面目全非"，而 Block 裁员 40% 后股价上涨 24%、IBM 因 COBOL 威胁单日蒸发 310 亿美元——资本市场正在以真金白银为 AI 替代效应定价。

AI周报 2026-W09

今日内容跨越官方博客、技术教程、GitHub项目、播客及X平台动态，核心焦点在于AI智能体工程实践的深化与AI公司与政府合作的伦理政策博弈。一方面，开发者社区正通过设计模式、交互式解释和新型工具链来提升智能体的可维护性与协作效率；另一方面，OpenAI与Anthropic在国防合作上的不同境遇，引发了关于AI安全红线与商业策略的广泛讨论。 精选文章：5篇（1篇4分，4篇3分） GitHub热门项目：5个（1个5分，4个4分） 播客精选：1集（4分） X推文动态：25条（来自20位作者）

AI 技术日报 - 2026-03-01

今日内容跨越博客、GitHub、播客及X平台，揭示了AI领域在资本、技术与治理层面的激烈碰撞。核心亮点包括：AI基础设施的千亿级资本竞赛、多智能体框架的成熟化趋势，以及AI安全评估与地缘政治交织的复杂议题。从OpenAI的巨额融资到开源模型可能面临的监管收紧，从业者正站在一个技术加速与规则重塑的十字路口。 精选文章：5篇（4分文章2篇，3分文章3篇） GitHub热门项目：5个（5分项目4个，4分项目1个） 播客精选：3集（均为4分） X推文动态：25条，来自23位作者

AI 技术日报 - 2026-02-28

本周 AI 领域最突出的特征是一种"同步加速"：资本、模型、基础设施和研究同时进入新的量级。OpenAI 宣布了史上最大规模的 1100 亿美元融资，NVIDIA 以 300 亿美元直接入股，Anthropic 刚刚完成 300 亿美元 G 轮——三天内流入 AI 头部公司的资本超过 1400 亿美元。与此同时，Qwen3.5-397B、Claude Sonnet 4.6、Gemini 3.1 Pro 三款旗舰模型在同一周内发布，形成了一场罕见的三方对决。

但真正值得关注的变化发生在水面之下。微软、Cloudflare、GitHub、HuggingFace 在同一周内集中发布 Agent 基础设施框架，标志着行业重心正从"更强的模型"转向"更可靠的 Agent 系统"。与此形成尖锐对照的是，五篇安全研究论文从几何、结构、模态三个维度共同揭示了当前 LLM 安全对齐的根本性脆弱。在 Agent 即将大规模部署的节点上，这一矛盾格外刺眼。

AI周报 2026-W08

LLM驱动的智能检索与推理：今日多篇论文聚焦于利用大语言模型（LLM）和智能体（Agent）技术，革新推荐系统的信息检索与决策过程。核心趋势是从静态的相似度匹配，转向动态、可解释、具备自主信息获取能力的“思考式”检索与推理，例如通过工具调用弥补信息鸿沟，或借鉴认知科学理论优化记忆召回。; 图神经网络（GNN）的增强与优化：工业界持续探索如何提升GNN在推荐场景下的鲁棒性与表达能力。今日亮点在于通过引入“原型”等全局上下文信息，来缓解GNN对局部噪声敏感和缺乏全局视野的问题，为图模型在复杂工业图（