AI 原生公司招人不看简历
上一篇说员工手册是给人类写的 CLAUDE.md——三家百万人效公司的手册都在解决同一个问题:怎么把品味编码进一个系统。给人写比给 AI 写更难,人需要激励、有自尊、会遗忘。
这篇接着问:从零开始写一份 AI 原生公司的员工手册,长什么样?
Compute Labs 三个人,六个产品,两个月。三个人的产出量级大概是传统团队十五人。不是更聪明——每个人都有强 Will(品味、判断、方向感),AI 接管了所有 Skill。做了两个月确认了一件事:不是提效。是团队存在的理由变了。
基于这个经验,加上三份手册的分析和道升术降的框架,试着写出 AI 原生公司的员工手册。
三个核心判断。
AI 原生公司只招一种人:Will 持有者。品味、判断、方向感、好奇心。简历上的 Skill 全部贬值。筛选方法彻底重新设计——不考白板题,考品味和判断力。
手册的核心不再是"怎么做事",而是"怎么判断"。MrBeast 的手册教你怎么做视频。AI 原生公司的手册教你怎么评估 agent 的产出、怎么做判断抉择、怎么跟 agent 协作。手册本身就是一份 prompt engineering 教程。
最难写的一页是评估标准。品味没有 GAAP。怎么衡量一个人的判断力好不好?这个问题不解决,手册就永远写不完。
招什么人:Will 的画像
在道升术降里分析过:Will(方向、判断、品味)升值,Skill(执行、技术)贬值。AI 原生公司把这个逻辑推到极致——只招 Will,不招 Skill。
传统简历是一份 Skill 文档。工作年限、掌握的语言、用过的框架、做过的项目。全是贬值资产。花三年学的东西,明年 AI 可能就能做。
AI 原生公司要的人长这样。
对"什么值得做"有自己的判断。不是等别人定义需求然后执行,是自己能看到问题、形成观点、判断优先级。有些人第一年就有这能力,有些人做十年还在等别人告诉做什么。
对"什么算好"有自己的标准。看 40 组实验结果知道哪三组有价值——品味。读一份草案能感觉到哪里框架不对——品味。噪声里找到信号——还是品味。这不是天赋,是大量观察、判断、犯错、修正之后长出来的。
遇到不懂的东西第一反应是去搞懂。跨领域好奇心是 Will 的早期信号。什么都想搞懂的人,判断力通常比只在一个领域深耕的人更好。判断力需要参照系——见过的东西越多,判断新东西的标准越准。
能形成独立观点并清晰表达。上一篇分析了人类 CLAUDE.md 和 agent CLAUDE.md 最大的区别是"推回来"的能力。AI 原生公司比传统公司更需要——大部分执行由 agent 完成,agent 的谄媚会成为系统性风险,永远说你的方案好。人的推回来能力是唯一的纠错机制。
张月光说过一个原则:团队需要共同方向和一致价值观,但品味、风格、思维方式必须不同。AI 让执行趋同——同样的工具同样的 spec,代码几乎一样——差异化来源只剩一个:坐在桌边的人看到了不同的东西。
怎么筛选:四种面试
传统面试是 Skill 测试。白板写代码、系统设计、"说说你做过的一个项目"——全在测做过什么,不是怎么想。
AI 原生公司的面试彻底不同。
品味测试。给候选人看十个产品、十个设计、十个策略。排序、批评、解释。没有标准答案。看两件事:能不能看到团队现有成员看不到的东西?品味跟团队是互补的还是重叠的?品味重叠是团队最隐蔽的陷阱。五个人品味一样,做出来的东西只能覆盖一个视角。AI 已经让执行趋同了——品味也趋同,团队没有存在的理由。
判断模拟。呈现一个真实的、信息不完整的模糊场景——从公司历史里选。"当时我们知道这些。你会怎么决定?为什么?"揭晓实际发生了什么。不确定性下的推理质量比"答对了"重要得多。好的候选人会说"我先确认 X,X 决定方向是 A 还是 B"——在结构化不确定性。差的候选人猜一个答案然后自圆其说。
好奇心探测。最近在工作之外探索了什么?钻了什么不相关的兔子洞?对什么跟简历毫无关系的领域有了解?不是闲聊。在测跨领域判断力的潜力。一个同时理解技术、设计、用户心理和商业逻辑的人,判断比只懂一个领域的人好几倍。AI 时代,这种综合判断力可能是最稀缺的资源。
异议演练。把团队当前策略展示给候选人,让他反驳。不是设套——测试能不能形成独立观点并顶住压力表达出来。面试里推不回面试官的策略,进团队也不会推回 AI 的迎合。AI 原生公司不需要点头机器——agent 已经够会点头了。
对大多数公司最难接受的:一个"过不了"传统编程面试的人,可能恰恰是需要的。传统面试筛的是 Skill 不足。Skill 不足在 AI 原生公司根本不是问题——AI 补上了。真正的问题是 Will 不足,传统面试根本不测这个。
手册写什么:从"怎么做事"到"怎么判断"
跟传统手册差别最大的地方。
MrBeast 的手册教怎么做视频——知道第几分钟、怎么优化留存率、怎么用创意省钱。Netflix 的手册教怎么做人——坦诚、自主、追求卓越。Duolingo 的手册教怎么跑系统——绿色机器的六步循环。
AI 原生公司的手册不教这些。"做事"的部分 agent 干了。手册教的是怎么判断 agent 干得好不好,怎么让它干得更好。
使命——人还是需要意义
上一篇分析了给人写和给 AI 写系统提示词最大的区别之一:人需要意义。不会因为公司是 AI 原生就消失。手册第一页依然是使命。不是 CLAUDE.md 里"你是一个 helpful assistant"——是"我们为什么存在,我们在解决什么问题,为什么这件事值得把职业生涯赌在这里"。区别:AI 原生公司的使命需要格外诚实。团队只有 5-7 个人,每个人都在前线,bullshit 活不过一周。
品味标准——每个判断域的"好"长什么样
手册最重要的部分。传统手册不需要——执行层面的好坏有客观标准(代码能不能跑、设计稿符不符合规范)。AI 原生公司的执行由 agent 完成,agent 的输出永远"过得去"。问题不是能不能用,是够不够好。
手册需要为每个判断域定义"好"的标准。产品判断:什么算一个值得做的功能?什么信号说明方向错了?什么时候该坚持、什么时候该放弃?设计判断:什么算精良?V1 的底线在哪?(借 Duolingo 的概念——V1 不是 MVP。)技术判断:什么算"简洁"?什么时候该用现成方案、什么时候该从头建?商务判断:什么样的合作值得谈?什么条件是底线?
这些标准不是规则——规则可以穷举。是判断框架,帮你在信息不完整的情况下做 70 分以上的决定。
Agent 协作——手册本身就是 prompt engineering 教程
AI 原生公司的每个人每天都在跟 agent 协作。手册必须教怎么做好。
怎么给 agent 下指令。不是"帮我分析一下"——是"我有这些数据,关心的维度是 X 和 Y,给投资人看的和给团队内部看的分析方式不同,先给我投资人视角"。本质就是你是管理者里分析的:管理 AI 跟管理人一样,需要提供上下文、定义目标、说清楚"好"长什么样。
怎么评估 agent 的产出。Agent 给你四个方案,怎么判断哪个好?不是看哪个"看起来专业"——是看哪个抓住了问题的关键约束。手册需要教这个思维方式。
怎么迭代。第一版不对的时候,不是说"重做"——是说"方向对,估值模型换成 DCF,风险部分加汇率敞口"。精确的反馈让 agent 一轮修正。模糊的反馈让 agent 猜五轮。
怎么防止谄媚。Agent 会说你的方案好。你的方案可能不好。手册需要写进去:每个重大决策发出前,跑一次红队——用一组专门配了对抗性指令的 agent 找茬。"这件事可能怎么失败?""我们没看到什么?"红队的工作不是帮忙——是拆台。团队再判断哪些反对意见是结构性的。
决策协议——什么时候信数据、什么时候信直觉
AI 原生公司产生大量数据。Agent 跑实验、分析结果、生成报告。数据唾手可得。
危险在:数据太容易拿到了,会开始什么都看数据。最重要的决策——做不做一个方向、要不要一个人、放不放弃一个产品——往往没有好数据。等数据出来,窗口已经过了。
手册需要明确:什么情况下数据说了算(Duolingo 的实验驱动模式,适用于可量化的产品优化),什么情况下直觉说了算(MrBeast 的"wow factor",适用于不可量化的品味判断),什么情况下必须走异议流程(Netflix 的主动征集反对意见,适用于高风险不可逆的决定)。
具体机制:同一个分析用不同假设跑多个 agent。一个假设市场在增长,一个假设在萎缩。输出不一致时,不一致本身就是信息——暴露了需要做的判断抉择。
上下文记录——活的 CLAUDE.md
每一个决策、每一次实验、每一个判断连同理由一起结构化记录。不是为了问责。是为了上下文。
在后 Agent 时代的组织里分析过:层级制的本质不是权力结构,是信息路由协议。AI 原生公司没有层级,信息路由靠共享上下文。每个人(和每个 agent)都能看到所有相关信息。
这也是为什么"手册就是人类 CLAUDE.md"这个类比比表面更深。AI 原生公司的手册不是静态文件。是一个活的系统——每个决策写进去,每个教训更新进去,每个品味标准随团队经验演进。本质上就是一份持续更新的 CLAUDE.md。
最难写的一页:品味怎么评估
会计有 GAAP。软件有测试套件。医疗编码有 ICD-10。品味什么都没有。
怎么评估一个人的判断力好不好?可以看结果——结果取决于运气、时机和一千个判断之外的变量。好决策可以产生坏结果,坏决策可以产生好结果。反馈循环既嘈杂又滞后。
不能度量的东西不能优化。品味是公司唯一的资产,品味没法可靠度量,怎么知道公司好不好?
部分解法:组合评估,看时间线。不是"这个决策对不对",是"过去 50 个决策里,这个人的判断是否系统性强于随机?"需要耐心——年,不是季度。需要纪律——每个决策及其理由都记录,每个结果都追踪回去。
Netflix 的 keeper test 是粗粒度的品味评估:"知道我现在知道的一切,还会雇这个人吗?"有用,是定性的、回溯的、依赖管理者的判断。AI 原生公司需要更精细的版本——回溯校准。半年前决定了 X,数据现在显示 Y,判断对了吗?长期积累,这套机制能告诉你:团队的品味在哪些领域准,哪些领域偏。
整份手册最难写的一页。也是最重要的一页。谁先建出来——品味领域的"GAAP"——谁就解锁了 AI 原生组织的全部潜力。
AI 原生公司的手册跟 MrBeast、Netflix、Duolingo 的手册有一个根本区别:传统手册教怎么做好一份工作,AI 原生手册教怎么判断工作值不值得做。给人写还是比给 AI 写难。