算法组织熵减与Scaling Law的悖论

type

status

date

slug

summary

从组织架构说起

我们先思考下，一个公司组织里，为什么需要 Leader，需要层级？任何一个超过几十人的组织都需要架构设计。这件事如此普遍，以至于我们很少追问：为什么需要组织架构？组织架构本质上在解决什么问题？

表面上看，组织架构是在划分职责、分配资源、明确汇报关系。但如果往下挖一层，会发现一个有趣的视角：一个组织本质上是一个分布式信息处理系统。 外部信息进来，内部处理，输出决策和行动。组织架构定义的，其实是信息如何在这个系统里流动——谁产生信息，谁消费信息，信息经过哪些节点，在哪里被过滤，在哪里被聚合。

当组织只有十几个人时，不需要刻意设计这些。信息自然流动，everyone talks to everyone，共识在茶水间和午餐桌上自然形成。但当组织膨胀到几百人，问题就来了。

这时候你会发现一个硬约束：人的带宽是有限的。一个人一天能深度沟通的人数大约是 5-7 个，能维持有效工作关系的大约是 15-50 个。这不是意志力的问题，是认知带宽的物理极限。当组织规模超过这个阈值，每个人就不可能和所有人保持有效连接。

怎么办？信息的流动必须被设计。必须有规则来决定：这个问题该找谁，这个决策谁来做，这个信息该传给谁。如果没有这套规则，每个人每天光是搞清楚「该和谁对接」就精疲力竭了，更别说干活儿了。

组织架构，就是这套规则的固化。

组织熵减：一个合理的设计

从信息论的角度看，组织架构做的事情可以用一个词概括：熵减。

熵是不确定性的度量。组织架构通过预定义的边界，消除了「谁负责什么」的不确定性。A 场景归 A 团队，B 场景归 B 团队，遇到问题不用想，按图索骥就行。

以推荐算法团队为例。一个大厂的推荐系统可能服务十几个场景：短视频、直播、搜索、商品、广告……如果不做划分，几百个人对着同一坨代码和数据，光是「这行代码谁能改」「这个实验谁来跑」就能吵翻天。

所以自然而然地，组织会按某种维度切开：按业务线分自然推荐和广告推荐，按场景分短视频、直播、搜索，按物料分视频、商品、直播间。每一类形成一个独立的小团队，人和系统权责统一——你负责这个场景的效果，你就控制实现效果所需的一切：数据、算力、技术方案。

这样做的好处是实实在在的。每个人只需要深度理解一个场景而不是所有场景，认知负载变得可控。决策链路变短了，场景内的问题场景内解决，不用层层上报。权责清晰了，效果好是你的功劳，效果差是你的责任，没有扯皮空间。团队内部人少、沟通频繁，容易形成共识，技术方案和业务理解能保持一致。

在相当长的时间里，这套模式运转良好。尤其是在特征工程时代，算法效果很大程度上依赖对业务的深度理解、对特征的精心设计，小团队的专注和深耕恰恰是核心竞争力。

这是一个合理的、甚至必要的设计。

Scaling Law：游戏规则变了

2020 年，OpenAI 发表了一篇论文，揭示了一个简洁但深刻的规律：模型效果与数据量、参数量之间存在可预测的幂律关系。只要数据和参数同步增长，效果就会持续提升，而且这个提升的轨迹是可以预测的。

这个发现被称为 Scaling Law，它解释了 GPT 系列为什么一代比一代强——不是因为架构有多巧妙，而是因为更大的数据、更大的模型、更多的算力。GPT-3 比 GPT-2 强，不是因为想出了什么绝妙的 trick，而是因为参数量从 15 亿涨到了 1750 亿。

后来的故事大家都知道了。GPT-4、Claude、Gemini，大模型军备竞赛全面展开。整个行业突然意识到：原来效果是可以用规模「买」到的。

这对推荐系统意味着什么？

以前，效果来自于人——人对业务的理解，人对特征的精心设计，人对模型的细致调优。人是核心生产要素，数据和算力是辅助。现在，效果来自于规模——数据量和模型参数量。模型自己从海量数据中提取模式，人的 domain knowledge 相对贬值了。

Scaling Law 要的是什么？数据聚合，把跨场景的数据放在一起训练，让模型看到完整的用户画像。算力聚合，集中资源训大模型，突破容量阈值。方案统一，一套架构承载所有场景，共享表示学习。

三个词都是「聚合」，都要求打破边界。

等等，这和组织架构在做的事情，方向好像完全相反？

两种不同的「熵」

没错，这里藏着一个根本性的矛盾。

组织架构要减少的是协调熵——人与人之间协调的不确定性。这是为了适配人的带宽限制，完全合理。Scaling Law 要利用的是数据熵——数据中包含的信息量。数据熵越高，模型能学到的东西越多。这是两种完全不同的「熵」。

问题在于，当组织架构为了降低协调熵而划分边界时，它顺手把数据也切开了。

为什么会这样？因为「权责统一」的逻辑。你负责这个场景的效果，那你就应该控制实现效果所需的资源。数据归你关注，算力归你支配，技术方案你说了算。这套逻辑在管理上无懈可击，但它的副作用是：每个团队只盯着自己那一亩三分地的数据，跨场景的信息流动被切断了。

用户是一个整体。他在短视频、直播、搜索、广告中的行为，是同一个隐变量——“真实偏好”的不同投影。分开建模，每个模型只能看到一个投影，像盲人摸象。联合建模，才能还原完整的用户。组织边界切的是人的职责，但刀落下去的时候，数据和算力也被切开了。

线性假设的崩塌

你可能会想：切开就切开呗，每个团队把自己的部分做好，加起来不就是整体吗？

这正是问题所在。这套逻辑有一个隐含假设：资源价值是线性可分的。10 个团队各 100 卡，约等于 1 个团队 1000 卡。如果这个假设成立，分区确实没有代价。

但 Scaling Law 揭示的现实是：1 个 10B 模型的能力，远超 10 个 1B 模型之和。这不是「好一点」和「差一点」的区别，是质变。

为什么会这样？首先是容量阈值效应。某些复杂模式——比如「用户在工作日通勤时喜欢短视频，周末在家时喜欢直播」这种跨时间、跨场景的关联——需要一定的参数量才能表示。低于这个阈值，模型根本装不下这种模式，不是学得差，是完全学不到。10 个小模型可能都在阈值以下，1 个大模型跨过了阈值，效果天差地别。

其次是表示共享。用户的基础偏好表示，是所有场景都需要的。大模型学一次，所有场景共享。小模型各学各的，每个都要从头学这套基础表示，算力被重复消耗，留给场景特定知识的容量就少了。

还有互信息的问题。跨场景的信息——比如用户在搜索里表达的意图对推荐有多大帮助——是一个整体属性，没法切成两半分给两个模型再拼回来。分开之后，这部分信息在两边都是零。

最后是涌现。某些能力在小模型上完全不存在，规模过了某个阈值后突然冒出来。这是相变，不是渐进提升。组织架构基于线性假设设计，却撞上了超线性的现实。

Consistency：更隐蔽的代价

还有一个更隐蔽但更致命的问题：一致性。当多个团队各自建模时，会发生什么？

用户在短视频刷到一个搞笑视频，切到直播又被推荐同一个创作者的直播间，打开搜索发现热搜还是相关话题。各个场景不知道彼此推了什么，没有人在全局层面协调「用户已经看过了」这件事。用户的感受是：这个系统很蠢，翻来覆去就这点东西。

用户在搜索场景明确表达了「想买一台相机」的意图——这是一个多强的信号！但这个信号没有传递到推荐场景。切到信息流，系统还在根据他三个月前的浏览记录推荐早已不感兴趣的内容。一个场景的高价值信号，在另一个场景完全失效。

同一个用户，在短视频系统里是「二次元爱好者」，在直播系统里是「电商剁手党」，在广告系统里是「价格敏感用户」。三个画像各自有道理，但拼不成一个完整的人。当需要做跨场景决策时，没人知道真正的用户是什么样的。

这不是多样性，是割裂。 多样性是同一个智能体在不同情境下做出不同但协调的决策；割裂是多个互不通信的智能体各自为政。

“人多”是 Consistency 的敌人

为什么会不一致？因为人多。

信息在人之间传递，有三层必然的损耗。编码损耗：脑子里的想法变成说出来的话，必然丢信息。传递损耗：话在人与人之间传递，每一跳都有衰减。解码歧义：同样的话，不同人理解不同，每个人都有自己的背景和隐含假设。

假设每次传递的保真率是 0.9。两个人之间还好，0.9。五个人的链条，保真率就降到 0.66。十个人，0.39。而且组织不是线性链条，是网络，信息要在网络里来回传播、汇聚、再分发。人数增加，一致性指数级下降。

组织架构的分区，本质上是承认这一点：全局一致性不可能，那就退而求其次，保局部一致性。每个小团队内部人少、沟通频繁，能维持一致。但团队之间？放弃了。这是妥协，不是解决。

现在来看模型。一个模型，同样的输入必然给出同样的输出。没有理解歧义，没有传递损耗，没有编码误差。Consistency 是 100%。 这是人做不到的。一百个算法工程师对同一个用户的理解一定有差异——哪怕只是微妙的差异。一个模型对同一个用户的表示，永远一致。

当用一个大模型服务所有场景时，用户在短视频是表示 X，在直播还是表示 X，在广告仍然是表示 X。跨场景的一致性自动获得，不需要开会对齐，不需要写文档同步，不需要任何人协调。模型是完美的一致性机器。

解法：人少但高密度

现在可以把整个逻辑串起来了。

人多，人的带宽有限，需要分区来降低协调熵。分区切断了数据和算力的聚合，阻碍了 Scaling Law。同时，人多导致一致性下降，数据的价值被系统性地折损。两头夹击，效果受限。

反过来呢？人少，协调成本本来就低，不需要复杂的分区。没有分区，数据和算力可以充分聚合，Scaling Law 生效。模型天然 100% 一致，人少了剩下的人之间也容易保持一致。数据价值被充分利用，效果释放。

组织熵减，是「人多」这个病的解药。 Scaling Law 告诉我们：也许从一开始，就不需要那么多人。当病因消失，解药也就不需要了。

终局图景

如果 Scaling Law 充分生效，算法组织会是什么样？

人数会大幅减少，可能是现在的 1/5 甚至 1/10。200 人的团队变成 30-50 人。模型团队会是少数高密度人才，负责统一大模型的研发，控制最大的杠杆。场景团队会变得轻量，更像是「模型的用户」而非「模型的开发者」——通过接口调用模型，做场景特定的轻量调整和业务逻辑。人与人之间的协调会大幅减少，更多是人与模型的接口。标准化程度高，协调成本低。50 人的组织，不需要 500 人组织那套复杂的架构。

这让人想起电力系统的演化。电力普及之前，每个工厂自己建发电机，需要大量电气工程师分布在各处。电力普及之后，发电集中在电厂，工厂只需要「用电」。电气工程师的数量大幅减少，剩下的集中在电厂和电网。模型，正在变成「智能的电力」。

写在最后

组织架构的分区设计，最初是为了让更多人能协作。它是一个合理的、必要的妥协。但 Scaling Law 揭示了一个讽刺的事实：也许从一开始，就不需要那么多人。

分区是为了管理人多带来的复杂度。如果人本来就可以少，复杂度本来就可以低，分区反而成了绊脚石。当模型足够强大，能够承担信息处理的主要职责时，不需要那么多人来理解业务、设计特征、调优模型。人少了，协调成本自然低。协调成本低了，不需要复杂的分区。没有分区，数据和算力可以充分聚合。聚合之后，Scaling Law 的红利才能真正释放。

未来属于：小团队，大模型，高一致性，充分聚合。

组织熵减解决的，终将是一个不再存在的问题。