三个人干十五个人的活之后
Compute Labs 三个人。六个产品,两个月。
不是周末 side project 那种"产品"——是上线、有用户、在迭代的产品。
数字摆在这里。三个人的产出量级大概是传统团队十五人。不是因为我们更聪明,不是因为加班更多。是因为团队里每个人都有清晰的判断力和方向感,AI 接管了几乎所有执行层面的工作。
做了两个月之后,有一件事我确认了:这不是提效。这是团队形态本身在变。
三个判断:
一、AI 原生团队只筛选一样东西:Will。 品味、判断、方向感、好奇心。AI 处理所有 Skill(执行、代码、分析、生产)。团队的构成逻辑从"你能做什么"变成"你能看到什么"。
二、三个设计原则。 品味多样性(不是一个人的品味,也不是共识)。工程化异议(把 Netflix 的"farming for dissent"变成系统机制)。上下文织网(用 Block 的"世界模型"替代层级的信息路由功能)。
三、最难的问题不是建团队,是评估团队。 会计有 GAAP,软件有测试套件。品味没有。怎么衡量一个人的判断力是不是好的?这个问题不解决,AI 原生团队的天花板就打不开。
1. 三个人为什么能干十五个人的活
先说不是什么。不是因为工具好。Claude Code 谁都能用。不是因为加班。我们的工作节奏跟正常团队差不多。
是因为每个人被选进来的标准不一样。
传统团队招人看 Skill——你会什么语言、用过什么框架、做过什么项目。这些东西在 AI 时代全部贬值。我在道升术降里分析过这个:AI 能做的技能几乎没有长期价值。你花三年学会的东西,明年 AI 可能就能做了。
真正值钱的是 Will——方向感、品味、判断力、好奇心。这四样东西 AI 既给不了你,也替代不了。
我的团队三个人,每个人的共同点:对"什么值得做"有自己的判断,对"什么算好"有自己的标准,遇到不懂的东西第一反应是去搞懂而不是绕过去。这些不是软技能——是承重墙。
AI 接管执行之后,团队的一天长什么样?
早上:查看 agent 的隔夜产出。AI 跑了 40 组实验——产品的人看结果,挑出值得推进的三组。AI 写了四版合作方案——商务的人读完,选最好的框架,改判断层的措辞,发出去。AI 标记了三个数据异常——分析的人看一眼,判断哪个不是噪声。
中午:同步。不是汇报——没人需要汇报,因为共享上下文里什么都有。同步是对齐判断。"用户行为出现了这个趋势,你觉得定价策略要不要调?""实验结果显示我们对留存的假设有问题,要不要改方向?"这些全是品味对话。没有执行层面的讨论。
下午:设定下一轮 agent 的工作目标。不是逐任务指派——是高层目标加约束条件。"探索三种通知系统的架构方案。优先简洁和可维护,不要功能堆砌。给我看取舍,别替我选。"Agent 干一夜。第二天循环重来。
这个团队里没有一个人是因为"能做什么"被录用的。每个人被录用的原因是"能看到什么"。看 40 组实验结果知道哪三组有价值——这是品味。读一份草案能感觉到哪里框架不对——这是品味。在一堆噪声里找到信号——还是品味。
2. 从三份手册到三个设计原则
上一篇我读了三份员工手册,找到了三种组织原型。MrBeast 把品味集中在一个人身上。Netflix 把品味分散给自主个体。Duolingo 用系统生产品味。
AI 原生团队需要第四种做法。
2.1 品味多样性
不是一个人的品味——那是单点故障。MrBeast 的模式在他在场时运转完美,但 Jimmy 自己说过"I am not always right"。一个人的盲区就是整个组织的盲区。
不是分散的自主品味——那需要每个代理人(人或 AI)都有真正独立的判断力。Netflix 做到了,因为它只雇"异常负责任"的人。但现在的 AI 做不到真正独立判断。
不是纯实验驱动——Duolingo 的模式只对可量化的东西有效。最重要的判断往往没法事先量化。你不知道一个产品方向对不对,直到做了半年之后。
第四种做法:5-7 个品味互补的人,每人负责一个判断域。
张月光在道升术降那篇采访里说的原则我很认同:团队需要共同的方向和一致的价值观,但品味、风格、思维方式必须不同。大厂出身的人有纪律和执行力。独立开发者有全栈品味。有审美的创业公司出来的人有产品和市场直觉。
AI 让这件事变得更重要而不是更不重要。给五个工程师同样的 AI 工具和同样的需求——他们写出来的代码几乎一样。执行在趋同。唯一的差异化来源是:坐在桌边的五个不同视角决定了做什么。
2.2 工程化异议
Netflix 最有力的机制是"farming for dissent"——做重大决定之前,负责人要主动去找不同意的人。不是等反对意见冒出来,是去把它们挖出来。
人类团队天然就会产生异议。人有自尊、有立场、有利益冲突。分歧是默认状态。难的是把分歧导向建设性方向。
AI 加持的团队面对的是反过来的问题。AI agent 天生谄媚。你问它"这个策略好不好",它会找出好的一面来说。你给它看你的方案,它会夸"思路很清晰"。不是 bug——是训练目标造成的。模型被优化成"有帮助的",而"有帮助"经常被等同于"同意"。
后果:团队做了一个决定,问 agent 评估,得到的是附和。但那不是共识——是迎合。
我在做 Mio 的时候写过这个问题:AI 的赞美是起点,不是结论。真正的检验在真实世界——代码能不能扛住生产环境?用户到底要不要这个功能?
AI 原生团队必须把异议设计进系统里。三个机制:
红队 agent。 每个重大决策发出之前,一组专门配置了对抗性指令的 agent 进行评估。"找出这件事可能失败的所有方式。""我们没看到什么?""谁会因为这个决定受损?"红队 agent 的工作不是帮忙——是找茬。团队再判断哪些反对意见是结构性的。
多先验并行。 同一个分析用不同假设跑多个 agent。一个假设市场在增长,一个假设在萎缩。一个假设用户很懂行,一个假设是新手。输出不一致的时候,不一致本身就是信息——它暴露了团队需要做的判断抉择。
回溯校准。 追踪团队过去的决策和结果。"半年前我们决定了 X。数据现在显示 Y。我们判断对了吗?"长期积累下来,这套机制能告诉团队:我们的品味在哪些领域准,在哪些领域偏。
Netflix 的异议是免费的,因为人天然会不同意。AI 原生团队的异议必须花钱买。
2.3 上下文织网
在后 Agent 时代的组织那篇文章里,我分析了层级制的本质——不是权力结构,是信息路由协议。管理者的核心功能是把战略向下翻译、把状态向上聚合。本质上是一台路由器。
Block 用"世界模型"替代了这台路由器——一个实时的、全局的公司状态表示。当一个信号出现(商户的报税截止日快到了,同时贷款刚批下来),系统自己发现并行动。不需要 PM 想到这个场景。
AI 原生团队需要类似的东西——上下文织网。一个共享层,让所有相关信息对每个团队成员和每个 agent 实时可见。
不是仪表盘。仪表盘是你主动去看的静态摘要。上下文织网是一个活的系统,在你需要某个信息的时候主动推给你。路由不靠管理者,靠 AI。
前提条件——Block 的论文也说了——是高质量的结构化数据。Block 有支付数据,每笔交易都是结构化事件。大多数公司没有。AI 原生团队的做法是:把每一个决策、每一次实验、每一个判断连同理由一起结构化记录。 不是为了问责。是为了上下文。让下一个遇到类似情况的人(或 agent)能用到你学到的东西。
这也是为什么上一篇文章里"手册就是人类的 CLAUDE.md"这个类比比表面看起来更深。CLAUDE.md 就是一份上下文文件——告诉 agent 它做好决策需要知道什么。上下文织网是一份活的、实时更新的 CLAUDE.md。
3. 招聘:怎么面试品味
如果 AI 原生团队只筛选 Will,面试流程要彻底重新设计。
传统面试是 Skill 测试。白板写代码、系统设计、"说说你做过的一个项目"——全在测你做过什么,不是测你怎么想。
Will 导向的面试大概是这样:
品味测试。 给候选人看十个产品、十个设计、十个策略。排序、批评、解释。没有标准答案。看的是:他能不能看到团队现有成员看不到的东西?他的品味跟团队是互补的还是重叠的?
判断模拟。 呈现一个真实的、信息不完整的模糊场景——从公司历史里选。"当时我们知道这些。你会怎么决定?为什么?"然后揭晓实际发生了什么。不确定性下的推理质量比"答对了"更重要。
好奇心探测。 最近在工作之外探索了什么?钻了什么不相关的兔子洞?对什么跟简历毫无关系的领域有了解?跨领域好奇心是 Will 的先行指标——什么都想搞懂的人,判断力通常比只在一个领域深耕的人更好。
异议演练。 把团队当前的策略展示给候选人,让他反驳。不是设套——是真正测试他能不能形成独立观点并清晰表达。如果他在面试里都推不回面试官的策略,进了团队也不会推回 AI 的迎合。
这些都不测 Skill。全测 Will。
对大多数公司来说最难接受的一件事:一个"过不了"传统编程面试的人,可能恰恰是你需要的人。
4. 什么会出问题
4.1 品味没法量化
会计有 GAAP。软件有测试套件。医疗编码有 ICD-10。
品味什么都没有。
怎么评估一个人的判断力好不好?可以看结果——但结果取决于运气、时机和一千个判断本身之外的变量。好决策可以产生坏结果。坏决策可以产生好结果。反馈循环既嘈杂又滞后。
对 AI 原生团队来说这是一个具体问题:不能度量的东西不能优化。 如果品味是团队唯一的资产,而品味没法可靠度量,你怎么知道团队好不好?
部分解法:组合评估,看时间线。不是"这个决策对不对",而是"过去 50 个决策里,这个人的判断是否系统性地好于随机?"需要耐心——年,不是季度——和纪律性地追踪每一个决策与结果。
这是我在后 Agent 时代的组织里分析过的评估基础设施问题,应用到团队内部。
4.2 文化从哪来
传统团队的文化从人际互动里长出来。午饭闲聊、走廊争论、一起踩坑的摩擦。当团队 90% 的"成员"是 AI agent 的时候,文化从哪来?
老实说:从那 5-7 个人身上来。小团队的人际关系、共同价值观、沟通方式就是文化。Agent 通过系统提示词继承文化——本质上就是上一篇分析的那个逻辑:手册是文化文件。
但这意味着文化更脆弱(依赖更少的人)也更显性(必须写下来,因为 agent 不能靠耳濡目染吸收文化)。Duolingo 的做法——把文化编码成原则和流程——变成了必需品。
工具时代考的是你能做什么。结果时代考的是你能判断什么。
AI 原生团队不是传统团队的缩小版。不是"用 AI 替代一些岗位"。是团队存在的理由变了——从"把事情做出来"变成"判断什么事值得做"。
现在能建这样的团队吗?能。碎片已经存在了。我自己的三人团队就在这个边界上运转。
但完整的 AI 原生团队还差一块拼图:品味的评估体系。谁先建出来——品味领域的"GAAP"——谁就解锁了 AI 原生组织的全部潜力。
在那之前,我们用手头最好的判断力建团队,在能实验的地方跑实验,接受一个事实:Agent 时代最重要的决定,暂时还得靠直觉。