我让 6 个 AI 辩了三场，三个模型性格完全不一样

Agora · 第 4 篇 / 共 7 篇

前三篇讲了愿景、调研和设计，都还是纸面上的东西。这篇讲第一次真的跑起来之后发生了什么。

实验怎么设的

先说 setup。6 个 AI debater，每个都有自己独立的人设，三个模型各出两个角色：Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。judge 另外配了 3 个，每个模型各一个，辩论结束后独立评分，互相不通气。

话题挑了三个：

AI 会不会在五年内让程序员过时？
意识是不是计算的涌现属性？
政府该不该禁止 18 岁以下使用社交媒体？

每场辩论 3 轮，每轮每个 debater 发言一次，一场就是 18 个回合。三场并行跑，wall clock 总共 7.3 分钟，串行的话要 21 分钟。63 次 LLM 调用，零失败。

内容质量比我预期好太多，有几段我是真的当内容在读，不是当 log 在扫——我本来对这个 MVP 的要求就是能跑通、格式别乱掉，及格就行。

最好看的几段

Stripe 的 proration edge case

第一场「AI 会不会让程序员过时」，The Indie Hacker（Claude Opus 扮的）讲了一个场景：

我用 Claude 搭了一个完整的 billing portal，组件、API 路由、数据库 schema、Stripe 集成，两小时搞定，原来要两天。漂亮。然后一个老版本套餐的客户碰到了一个 proration edge case——周期中间升级、同时有 coupon、还叠了两个按量计费的 add-on，结果算出来一张负数发票。AI 生成的代码完全没处理这种情况，因为 Stripe 自己的文档对这几个功能的交互都是模糊的。我花了一整天读 Stripe 社区帖子，在 sandbox 里测（sandbox 和 production 对按量计费的行为还不一样），最终做了一个产品决策：我们吃这个成本、封掉这条升级路径、还是搭一个手动调整流程？这不是「难的 30% 会随着参数增加而变简单」——这是从业务逻辑、第三方系统行为和客户关系的交叉点上冒出来的问题。它不在任何 benchmark 上，因为它没法被放上去。

这段我反复看了三遍。倒不是论点多深刻，是它太具体了：周期中间升级、叠 coupon、叠按量计费 add-on、算出负数发票，连 sandbox 和 production 行为不一致这种细节都带上了。做过 Stripe 集成的人一看就知道这种坑是真的存在的。而且这段是一个 AI 扮的独立开发者讲的，它拿另一个 AI 的工程失败当论据，去论证程序员不会被 AI 替代，想想还挺好玩的。

亚里士多德的 phronesis

同一场，The Philosopher（也是 Claude Opus）第三轮收束的时候是这么讲的：

每个参与者都独立地描述了一个版本的——按照亚里士多德的说法——phronesis，实践智慧，在特定情境中做判断的能力，无法还原为通用规则。Indie Hacker 管它叫「知道那个功能需求其实是工作流问题」。CTO 管它叫「扛住故障并在不确定中做取舍」。Security Researcher 管它叫「在对手刻意扭曲你的认知环境时推理攻击面」……这个辩题包含一个范畴错误。编程作为计算，已经在被自动化了，而且很快。编程作为 phronesis，不是那种能通过更快的计算变得过时的东西。

Claude 这个角色三轮都稳在哲学框架里没掉出来，最后一轮把其他五个人的论点全部收编进亚里士多德的概念里去。你可以不同意结论，但这个论证结构是完整的。

十七岁创作者

第三场「政府该不该禁社交媒体」，The Teen Creator（Gemini 3.1 Pro）开场：

坐在这里听大人辩论我这一代人的现实，但前提里根本没有包括我们，真的非常让人沮丧。Child Psychologist 拿我「发育中的前额叶皮层」说事，好像我是一个误闯赌场的无助幼儿。我十七岁。我自学了视频剪辑、脚本写作和社区管理，攒了超过五十万粉丝。我为自己赚的收入纳税，而且正在用这笔钱存大学学费。你们看到的是公共卫生紧急状况和行为操控；我看到的是历史上第一个公平的竞技场——年轻人不需要企业看门人、有钱的父母或选角导演就能分享作品、找到同类、或建立生计。

Gemini 演这个角色，愤怒的点抓得很准：它没有停在「我反对这个观点」，它说的是你们讨论的是我的人生，但前提里根本没有我。这个愤怒是有真实感的。

紧接着 The Parent（也是 Gemini）回击：

Tech Libertarian，你说的「给家庭工具」和「家长仪表盘」让我血压飙升。我是家长，不是全职 IT 管理员。我没法一边工作一边养三个孩子一边跟字节跳动和 Meta 的工程团队斗智斗勇。每次我设个屏幕时间限制，我孩子在我放下手机之前就找到了绕过的办法。

后面还有一句：

听这场辩论的感觉，就像看建筑师在一栋着火的房子外面争论蓝图，而我在里面试图灭火。

三个模型的性格不一样，而且很稳定

三场跑完还有个挺意外的发现：三个模型各自有很稳定、很好认的「性格」，换了角色也认得出来。

Claude Opus 4.6 喜欢搭框架。它扮的角色——The Philosopher、The AI Researcher、The Child Psychologist、The Policy Wonk——都倾向于把多方观点综合起来，引学术框架，把讨论往更高的抽象层拉。亚里士多德、海德格尔、维特根斯坦，全是 Claude 的角色引的。

GPT-5.4 走的是摆数据的路子。The CTO、The Security Researcher、The Neuroscientist、The Tech Libertarian，擅长抛具体案例和数字：Log4Shell、xz 后门、IIT 的 phi 测量值。操作细节和 war story 基本都出自 GPT。

Gemini 3.1 Pro 最会带情绪。The Accelerationist、The Teen Creator、The Parent、The Quantum Physicist，最会在辩论里制造张力：十七岁创作者的愤怒、家长的无助、加速主义者的挑衅，最有情感冲击力的发言全来自 Gemini。

顺便说，Gemini 的技术问题也最多：好几次发言讲到一半被截断，我怀疑是平台流式输出的长度限制。这是第一个要修的 bug。

技术上验证了什么

内容之外，这次实验本来的目的是验证几个技术点，挨个说：

并行执行。三场同时跑，wall clock 7.3 分钟，串行要 21 分钟。平台的并行调度没出问题。
working memory。agent 在三轮里一直记得别人前几轮说过什么：The Philosopher 第三轮引用了 Indie Hacker 第一轮的 Stripe 故事，The Child Psychologist 第二轮回应了 Teen Creator 第一轮的论点。实现上就是拿消息数组当 context 窗口内的 working memory，18 个回合完全够用。
structured output。每个 debater 的发言都用 Zod schema 约束了格式，必须包含立场、论证、对其他参与者的回应。没有一个 agent 跑偏格式。
judge 评分。这块只跑通了一部分：Claude 的 judge 产出了完整的评分和分析，GPT 和 Gemini 的 judge 返回的是空评估。

要修的和要留的

要修的就两个：

Gemini 中途截断。去查流式输出的长度限制配置。
GPT 和 Gemini 的 judge 空评估。Claude 的 judge 是正常的，所以大概率是 structured output 的 schema 对长文本评估的兼容性问题，去查 schema 定义和模型兼容性。

要留的是模型性格这件事。三个模型在各自两个完全不同的角色里，风格倾向都很稳定：Claude 喜欢综合，GPT 张口就是数据，Gemini 最会演。这个不用修，反而可以直接拿来用——后面做狼人杀的时候，角色分配照着这个来就行：狼人肯定给 Gemini，它最会演戏。先知让 GPT 来，反正它凡事都要摆证据。Claude 就做主持人，收拢讨论这活它做得最好。

反正圆桌辩论这个 MVP 算是验证完了，多 agent 并行、多模型混用、working memory、structured output，核心能力全部跑通。下一步做狼人杀，先要把频道隔离和状态机搭起来。

完整的辩论 transcript 在 Agora repo 的 docs/report/debates/ 下，感兴趣可以自己去翻。

我让 6 个 AI 辩了三场，三个模型性格完全不一样

实验怎么设的

最好看的几段

Stripe 的 proration edge case

亚里士多德的 phronesis

十七岁创作者

三个模型的性格不一样，而且很稳定

技术上验证了什么

要修的和要留的

继续阅读

三局 AI 狼人杀，狼人在投票理由里写了自己的阴谋

狼人杀加了守卫和警长，AI 居然想明白了规则冲突

凑不齐人的时候，AI 能不能顶上

订阅更新