type
Post
status
Published
date
May 9, 2026
slug
why-Anthropic-win-OpenAI
summary
之前是一次开放性的问答,问到了这个问题。可以有非常多的答案,比如通常的说法,更专注于代码能力,代码加速了模型的研发,形成了飞轮;更加专注于 B 端付费客户,比起 C 端没有成型的商业模式,B 端可以一边赚钱,一边积累真实的问题解决反馈。
这些肯定都是,但是我觉得那都是伴随着大量表象的或然,它背后的必然是什么?我认为是一种认知,我最近深刻地认识到:在技术的变革期,你的 Team 当下能落地什么,取决于一年前的认知,模型很大,建立新的 Infra 需要时间,这个放到推荐系统是这样,在 LLM 的发展期(20~26)就影响了更大的时间尺度。
tags
LLM
思考
category
LLM
icon
password
priority
3
之前是一次开放性的问答,问到了这个问题。可以有非常多的答案,比如通常的说法,更专注于代码能力,代码加速了模型的研发,形成了飞轮;更加专注于 B 端付费客户,比起 C 端没有成型的商业模式,B 端可以一边赚钱,一边积累真实的问题解决反馈。
这些肯定都是,但是我觉得那都是伴随着大量表象的或然,它背后的必然是什么?我认为是一种认知,我最近深刻地认识到:在技术的变革期,你的 Team 当下能落地什么,取决于一年前的认知,模型变大,资源有限,建立新的 Infra 需要时间,这个放到推荐系统是这样,在 LLM 的发展期就影响了更长的时间尺度。
而 Scaling Law 恰好给"一年前的认知"提供了可证伪的依据——它把"押注未来"从赌博变成了沿曲线外推,这是 Anthropic 敢在没有市场反馈时就下注的底气。
Scaling Law 的 paper《Scaling Laws for Neural Language Models》是 OpenAI 发布的,作者(包括 Dario,Anthropic 的创始人之一)里 10 个有 6 个陆续出走到 Anthropic,并且始终稳定。

在 The Adolescence of Technology 中 Dario写到:“我和 Anthropic 的联合创始人是首批记录并追踪人工智能系统“缩放定律”的人之一——这一规律指的是,当我们增加算力和训练任务时,人工智能系统在我们能够衡量的几乎每一项认知技能上,都会以可预测的方式变得更出色。每隔几个月,公众的情绪要么坚信人工智能正“遭遇”“瓶颈”,要么为某项能“彻底改变游戏规则”的新突破而兴奋不已,但事实是,在这种波动和公众猜测的背后,人工智能的认知能力一直在平稳、稳步地提升。”
My co-founders at Anthropic and I were among the first to document and track the “scaling laws” of AI systems—the observation that as we add more compute and training tasks, AI systems get predictably better at essentially every cognitive skill we are able to measure. Every few months, public sentiment either becomes convinced that AI is “hitting a wall” or becomes excited about some new breakthrough that will “fundamentally change the game,” but the truth is that behind the volatility and public speculation, there has been a smooth, unyielding increase in AI’s cognitive capabilities.
Scaling Law 是什么?简单说就是Loss 和参数/数据/算力规模之间的可预测数学关系。当数据不是瓶颈时,Loss 和参数规模有明确的幂律数学关系,在双 log 曲线上就是一条横跨多个数量级的直线,反过来参数不是瓶颈,数据和 loss 也是这样的关系。

后续 DeepMind 的 chinchilla 把参数和数据合并到一个统一的公式里,N 是参数,D 是数据:
这个最直接的影响,就是LLM开启了算力的军备竞赛,疯狂地 Scaling Up 模型的参数量,投钱买显卡建GW级别的数据中心。包括这也感染到了其他的 ML 领域,比如推荐系统的 Scaling Up。
“Scaling Law” 是支持 Scaling Up 的,但关注点在 “Scaling” 上,而非在 “Law” 上。“Law”代表地是一种精确的自然规律,背后是数据分布和数学规律。之前我对 ML 的理解,我把它当成一种玄学——你实验做正了那就是好的。应该也不是只有我这么认为吧,否则也会不会有“炼丹”的说法。但是“Law”给了这个领域以精密,可以更加工程化地规划模型生产,就像能把飞船送上太空的是类似的一种“工程精密”。
这篇对Anthropic的访谈 说他们的核心理念:不像硅谷主流“规模至上”(疯狂砸钱建数据中心、锁芯片),Anthropic 强调高效利用资源——通过算法优化、高质量数据、后训练技巧和更聪明的部署,来实现“每美元算力产生更多能力”。他们一直用比竞争对手少得多的算力和资金,却长期保持最强模型之一。
Daraio 自己的文章《On DeepSeek and Export Controls》里反驳"DeepSeek-V3 $6M 干了美国公司几十亿才干的事",Sonnet 训练于DeepSeek-V3 9-12 个月前,算法效率和硬件工程效率会带来4x/year的成本下降,Sonnet 在这条曲线上,它惊叹的是 DeepSeek一家中国公司(这货反华)也站在了这条成本曲线上。
这看似和 Scaling Law 的"堆算力"叙事矛盾,其实是同一种信仰的两次复利。Scaling Law 这条曲线本身在变好——达到同样能力所需的算力每 8 个月减半(Algorithmic progress in language models);与此并行还有一条成本曲线在持续下移——硬件$/性能每 2.2 年翻倍,截距越来越低。两条曲线相乘,就是 Dario 那个"4x/year cost decline"。一条 Law 决定能力的天花板,一条 Law 决定到达天花板的成本——都可外推、都可以提前一两年做规划。
Anthropic 实际就是在按规律曲线在做技术预判,押注未来的能力,也同时通过算法和硬件优化曲线背后的成本。相反 OpenAI 在这些 Scaling Law 信仰者出走后,是以时长反馈为导向在做优先级决策的,典型的互联网 toC 思维模式。

实际这是两种决策模式,technology-led 还是 market-led。我其实一直都相信,大多时候是业务模式决定了成败,市场/用户反馈决定了增长(market-led),但这是因为大多数的时间里不是在重塑业务模式,而是在修补业务模式。但是在范式变革期,其实是新的技术范式带来类业务模式的重塑,这时候是technology-led。
就比如推荐系统,我觉得并非是推荐系统决定了沉浸式短视频产品的成功,但是没有一个强大的推荐系统支持,这样的产品也不 work,技术决定了它可行,市场打磨决定了它做大。某多多说他们早期甚至不想加一个搜索框,纯粹以推荐为核心,后来发现还是不行,那也许真正缺的是更强一代的推荐技术。
Dario 的 Google Scholar 里引用量第三的是《Evaluating Large Language Models Trained on Code》,赫然有一个命名为 Codex 的代码模型,这是 21 年。OpenAI 在 23 年的时候就把精力转向了通用模型,那是因为 GPT 3.5/4 赢得了 C 端市场,代码的市场看起来也没那么大。

而 Anthropic 始终沿着 coding 的赛道前进,直到 Claude Code 爆发。这同样是技术预判而非赛道偏好——21 年那篇 Codex paper 真正立下的是 pass@k:把代码对不对从"人看"变成了"机器跑",确认了代码是少数拥有可机械验证 ground truth 的大规模域。这个属性在当时只用于评估,但它注定会在 RL 范式成熟后成为最值钱的训练信号——23 年起 CodeRL、24-25 年 DeepSeek-R1 / o1 这一波 RLVR 兑现了这个预期。
技术变革期,看技术曲线的能提前预判,能初心不移,也是以低成本在坚定地沿着Scaling Law 曲线前进,于是能第一个看到LLM涌现出的新能力,自然而然地塑造出新的产品形式和业务模式。