ENZH

人效百万美元的公司,员工手册里写了什么

📊 幻灯片

员工手册就是给人类写的系统提示词。

这个判断不是比喻。花了一天读完 MrBeast、Netflix、Duolingo 三家的员工手册,发现它们在回答的问题跟我每天写 CLAUDE.md 一模一样:我们在优化什么?"好"长什么样?遇到模糊情况怎么办?什么事绝对不能做?

三家人均年营收都在百万美元量级——MrBeast 约 280 万,Netflix 约 270 万,Duolingo 约 78 万。手册风格天差地别。底层逻辑惊人一致:怎么把创始人脑子里关于"什么算好"的隐性判断,编码成一套系统,让别人能自主执行。

更有意思的:给人写和给 AI 写这份文件,区别比想象中大得多。


三份手册长什么样

先说直观感受。

MrBeast 的手册 36 页,Jimmy Donaldson 自己写的。满篇错别字和语法问题,开头就道歉了——"我是 YouTuber 不是作家哈哈"。读起来像凌晨两点的创始人独白。读完了会觉得跟 Jimmy 吃过一顿饭,聊了他怎么想视频、怎么管团队、什么事让他抓狂。

Netflix 的只有 5 页。极度精炼。四根柱子撑起整份文件:梦之队、人大于流程、令人不安的兴奋、永远更好。休假政策两个字:"休假。"报销政策五个字:"按 Netflix 利益行事。"

Duolingo 做了一本 64 页的插图书。有版本号(1.0.0),封面是猫头鹰 Duo 的建模解剖图,背面标注"O.BUTT"。五个原则、一套叫"绿色机器"的运营框架、术语表。像一本软件操作手册。

风格完全不同。每份手册都在做同一件事——把创始人脑子里关于"什么算好"的隐性判断,变成别人能执行的显性系统。跟写 CLAUDE.md 一模一样。


三种编码方式

MrBeast:极度具体

Jimmy 的手册有一条核心原则:你的目标是做最好的 YouTube 视频。不是最好看的,不是制作最精的,不是最搞笑的——是最好的 YouTube 视频。

看着像废话。后面花了 20 页解释为什么不是废话。

YouTube 视频的好坏可以精确度量。三个指标:CTR(点击率)、AVD(平均观看时长)、AVP(平均观看百分比)。每条视频的留存曲线精确到秒——60 万人点进来,第一分钟走了 21 万,第三分钟走了多少,第六分钟在哪回升。手册里放了真实后台截图。

品味在这不是虚的。品味 = 理解三个指标、知道怎么优化、并且知道什么时候不该优化。

举了一个例子。100 天圆圈挑战——有人住在一个圆圈里 100 天就给 50 万美元。一般制作公司从他住进去第一天开始拍。Jimmy 的做法:开拍 30 秒,一台吊车把整个房子吊到半空中放进圆圈里。

数据上可能是浪费钱。Jimmy 说这种事的价值在于"wow factor"——"who the fuck else on Youtube can do that"。让观众记住 MrBeast 和其他频道不一样。这个判断不在任何指标体系里。纯粹是品味。

手册里有一段特别值得注意。Jimmy 教员工怎么向他提问。别说"我们要送一辆车,这辆雷克萨斯怎么样"——让他承担了所有认知负荷。应该说:"视频第 6 到 9 分钟有个送车环节,预算一万美元。搜了北卡所有这个价位的酷车,找到 5 辆已经过了创意审批的,还有 5 辆备选。你觉得哪个好?"

不是沟通技巧。是提示词工程。在教人类怎么提供足够上下文、界定约束条件、呈现选项。跟写 AI 的 system prompt 一回事。

这种编码方式的优点:Jimmy 不在场,团队也知道该怎么做。缺点:天花板是创始人的带宽。手册里自己说了——"I am not always right"——整个系统围绕一个人的品味运转,纠错能力取决于别人敢不敢推回来。

Netflix:极度抽象

Netflix 的做法正好反过来。MrBeast 说"知道你在做的是视频的第几分钟",Netflix 说"按 Netflix 利益行事"。

核心赌注:雇异常负责任的人,给他们最大自由度。规则越少越好。

几个关键机制。Keeper test——管理者定期问自己:如果这个人要离职,会拼命留吗?不会,让他走。Context not control——管理者不做决定,给团队做好决定所需的上下文。Farming for dissent——做重大决定前,主动找不同意的人。

这种编码方式的优点:不依赖任何单个人的品味,组织韧性最强。缺点:只能配合极优秀的人运转。放到 AI 语境里——需要一个用极短系统提示词就能做高质量判断的模型。目前没有。

Duolingo:一套流程

Duolingo 走了第三条路。五个原则加一套"绿色机器"——六步循环:用好人、定义成功、设护栏、开建加反馈循环、紧迫执行、加倍有效的停掉无效的。

精妙之处:系统自己产出品味。跑几百个实验,数据说哪个好留哪个。不依赖任何个人。

几个细节。V1 不是 MVP——"V1 可能没有所有功能,必须精良。MVP 经常成为发布半成品的借口。"这命名本身就是品味编码——每次有人说"发 V1",这个词自带质量标准。99 个坏主意——领导层专门留时间头脑风暴荒谬问题。"如果 Duo 在超级碗有 5 秒钟时间呢?"后来真的变成了 2024 年超级碗广告,花了别人三十秒广告的零头。Trust Battery——信任是充出来的,不是默认给的。级别不决定信任——成果决定。

这种编码方式的优点:最稳定,不依赖任何个人,跟 AI agent loop 天然兼容。缺点:只对可量化的东西有效。最重要的判断往往没法事先量化。


三种编码方式的取舍跟写 CLAUDE.md 一样:

具体(MrBeast)抽象(Netflix)流程(Duolingo)
接收方自主空间
对接收方能力要求极高
创始人瓶颈严重
品味一致性看人看实验

太具体,agent 自主空间小。太抽象,agent 容易偏。写成流程最稳定——需要好的度量体系。

品味传递的难点在:大部分品味是隐性知识。知道什么好什么不好,从来没被迫写成文字。写 CLAUDE.md 逼你把脑子里模糊的判断标准变成明确的指令。写员工手册也是。三家公司的手册质量——品味编码的精度——直接预测了组织能自主到什么程度。


给人写和给 AI 写,到底差在哪

同一个问题,接收方不同。差别比表面大得多。

激励。人类手册花大量篇幅讲 WHY。MrBeast:"YouTube 是未来,我用全身每一个细胞相信它会持续增长。"Netflix:"The best work of our lives。"Duolingo 的使命是"做世界上最好的教育,让所有人都能用"。这些段落存在的原因只有一个:人需要相信自己在做的事有意义。Agent 的 CLAUDE.md 里没有一个字是激励性的。不需要激励 agent。配置它。

自尊。MrBeast 专门写了一整节"Own your mistakes"——人会护短、怕背锅、找借口。Netflix 把"extraordinary candor"写进文化——人默认回避冲突。没有哪份 CLAUDE.md 需要写"别找借口"。Agent 没有自尊心要保护。

归属感。Netflix 说"我们是职业运动队,不是家庭"。Duolingo 每年带全公司去坎昆度假。MrBeast 承诺"在这里你能赚到任何其他公司做梦都赚不到的钱"。都是为了让人想留下来。CLAUDE.md 不涉及归属感。Agent 不会辞职,不会孤独,不需要团建。

遗忘。MrBeast 手册结尾写:"现在从头再读一遍,因为我保证你没记住足够多。"人会忘、会走偏、会偷懒。Agent 的系统提示词每次会话重新加载。不会遗忘,不需要提醒。

推回来。最重要的区别。人能基于自己的经验和信念真正反对你。Netflix 的"farming for dissent"有效,因为人有真实的、值得挖掘的不同意见。MrBeast 的"I am not always right"重要,因为人确实会推回来。Agent 的反对是模拟的——可以指令它"生成反对意见",没有信念。不知道什么时候该基于切身经验拍桌子。

这映射到一个频谱:接收方的自主判断力越强,系统提示词可以越短。Netflix 的 5 页手册能运转,因为人足够优秀。5 行系统提示词就能自主运转的 agent?目前不存在。


再往上一层看:如果员工手册是 agent.md,公司本身就是一套 agent orchestration。创始人是 orchestrator,手册是配置文件,每个员工是一个被配置过的 agent,公司的运转就是 agent 之间的协作协议。

MrBeast 是中心化编排——一个 orchestrator 直接指挥所有 agent。Netflix 是去中心化编排——每个 agent 高度自治,只靠价值观对齐。Duolingo 是流水线编排——agent 嵌入自动化循环,系统自己迭代。

AI 原生公司不是换了一种编排方式。是人和 AI agent 混编进同一套编排系统里。手册要同时配置两种 agent——一种需要激励、有自尊、会推回来;另一种不需要激励、没有自尊、也不会推回来。

给人写更难。Agent 只需要知道做什么,人还需要知道为什么。


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0