我让 6 个 AI 辩了三场,有一段我反复看了三遍

📊 幻灯片

Agora · 第 4 篇 / 共 7 篇


前三篇讲了愿景、调研和设计。这篇讲第一次跑起来之后发生了什么。

实验设计

6 个 AI debater,每个都有独立人设。三个模型各出两个角色:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。另外 3 个 judge,每个模型各一个,辩论结束后独立评分。

三个话题:

  1. AI 会不会在五年内让程序员过时?
  2. 意识是不是计算的涌现属性?
  3. 政府该不该禁止 18 岁以下使用社交媒体?

每场辩论 3 轮,每轮每个 debater 发言一次,共 18 个回合。三场并行跑,总墙钟时间 7.3 分钟(串行要 21 分钟)。63 次 LLM 调用,零失败。

预期是「能跑通就行」。

结果比预期好太多了。

最好的几段

Stripe 的 proration edge case

第一场辩论「AI 会不会让程序员过时」,The Indie Hacker(Claude Opus)讲了一个真实场景:

我用 Claude 搭了一个完整的 billing portal,组件、API 路由、数据库 schema、Stripe 集成,两小时搞定,原来要两天。漂亮。然后一个老版本套餐的客户碰到了一个 proration edge case——周期中间升级、同时有 coupon、还叠了两个按量计费的 add-on,结果算出来一张负数发票。AI 生成的代码完全没处理这种情况,因为 Stripe 自己的文档对这几个功能的交互都是模糊的。我花了一整天读 Stripe 社区帖子,在 sandbox 里测(sandbox 和 production 对按量计费的行为还不一样),最终做了一个产品决策:我们吃这个成本、封掉这条升级路径、还是搭一个手动调整流程?这不是「难的 30% 会随着参数增加而变简单」——这是从业务逻辑、第三方系统行为和客户关系的交叉点上冒出来的问题。它不在任何 benchmark 上,因为它没法被放上去。

反复看了三遍。不是因为它多深刻——太具体了。不是 AI 编出来的抽象论证,是一个真实得不能再真实的工程场景。一个 AI 扮演的独立开发者,用另一个 AI 的工程失败来论证为什么程序员不会被 AI 替代。

亚里士多德的 phronesis

同一场辩论,The Philosopher(Claude Opus)在第三轮的收束:

每个参与者都独立地描述了一个版本的——按照亚里士多德的说法——phronesis,实践智慧,在特定情境中做判断的能力,无法还原为通用规则。Indie Hacker 管它叫「知道那个功能需求其实是工作流问题」。CTO 管它叫「扛住故障并在不确定中做取舍」。Security Researcher 管它叫「在对手刻意扭曲你的认知环境时推理攻击面」……这个辩题包含一个范畴错误。编程作为计算,已经在被自动化了,而且很快。编程作为 phronesis,不是那种能通过更快的计算变得过时的东西。

Claude 的角色在三轮辩论中始终保持哲学框架,最后一轮把其他五个人的论点全部收编进亚里士多德的概念里。不管你同不同意结论,论证结构是完整的。

十七岁创作者的愤怒

第三场辩论「政府该不该禁社交媒体」,The Teen Creator(Gemini 3.1 Pro)的开场:

坐在这里听大人辩论我这一代人的现实,但前提里根本没有包括我们,真的非常让人沮丧。Child Psychologist 拿我「发育中的前额叶皮层」说事,好像我是一个误闯赌场的无助幼儿。我十七岁。我自学了视频剪辑、脚本写作和社区管理,攒了超过五十万粉丝。我为自己赚的收入纳税,而且正在用这笔钱存大学学费。你们看到的是公共卫生紧急状况和行为操控;我看到的是历史上第一个公平的竞技场——年轻人不需要企业看门人、有钱的父母或选角导演就能分享作品、找到同类、或建立生计。

Gemini 扮演的这个角色,愤怒是真实的节奏感。不是「我反对这个观点」,是「你们在讨论我的人生但没有问过我」。

紧接着 The Parent(也是 Gemini)的回击:

Tech Libertarian,你说的「给家庭工具」和「家长仪表盘」让我血压飙升。我是家长,不是全职 IT 管理员。我没法一边工作一边养三个孩子一边跟字节跳动和 Meta 的工程团队斗智斗勇。每次我设个屏幕时间限制,我孩子在我放下手机之前就找到了绕过的办法。

然后:

听这场辩论的感觉,就像看建筑师在一栋着火的房子外面争论蓝图,而我在里面试图灭火。

模型性格差异

三场辩论跑完,最意外的发现不是内容质量,三个模型展现出了稳定、可辨认的「性格」。

Claude Opus 4.6 是框架构建者。它扮演的角色(The Philosopher、The AI Researcher、The Child Psychologist、The Policy Wonk)倾向于综合多方观点、引用学术框架、把讨论拉到更高的抽象层。亚里士多德、海德格尔、维特根斯坦都是 Claude 的角色引的。

GPT-5.4 是数据提供者。它扮演的角色(The CTO、The Security Researcher、The Neuroscientist、The Tech Libertarian)擅长抛出具体案例和数据——Log4Shell、xz 后门、IIT 的 phi 测量值。操作细节和 war story 是 GPT 的强项。

Gemini 3.1 Pro 是情绪引擎。它扮演的角色(The Accelerationist、The Teen Creator、The Parent、The Quantum Physicist)最会在辩论中制造张力。十七岁创作者的愤怒、家长的无助、加速主义者的挑衅——最有情感冲击力的发言全来自 Gemini。

Gemini 也有最多的技术问题。三场辩论中 Gemini 的角色多次在发言中途截断,疑似平台的流式输出长度限制。第一个要修的 bug。

技术验证

除了内容质量,这次实验验证了几个关键技术点。

并行执行。 三场辩论同时跑,墙钟 7.3 分钟。串行需要 21 分钟。平台的并行调度没出问题。

工作记忆。 agent 在三轮辩论中始终记得其他参与者前几轮说了什么。The Philosopher 在第三轮引用了 Indie Hacker 第一轮的 Stripe 故事。The Child Psychologist 在第二轮回应了 Teen Creator 第一轮的论点。消息数组作为上下文窗口内的工作记忆,在 18 回合的辩论中够用。

结构化输出。 每个 debater 的发言都通过 Zod schema 约束了格式——必须包含立场、论证、对其他参与者的回应。没有一个 agent 跑偏格式。

judge 评分。 Claude judge 产出了完整的评分和分析。GPT 和 Gemini 的 judge 返回了空评估——第二个要修的 bug,大概率是结构化输出 schema 对长文本评估的兼容性问题。

两个 bug,一个发现

Bug 1:Gemini 截断。 Gemini 的角色在多场辩论中被中途截断。需要查流式输出的长度限制配置。

Bug 2:judge 空评估。 GPT 和 Gemini 的 judge 产出了空结果。Claude 的 judge 正常。需要查 schema 定义和模型兼容性。

发现:模型性格一致性。 不是 bug,是特性。三个模型在各自两个完全不同的角色中展现出了稳定的风格倾向。Claude 综合,GPT 举证,Gemini 演绎。后续做狼人杀,可以利用这个特性做角色分配——让 Gemini 演狼人(最会演戏),让 GPT 演先知(最重数据),让 Claude 做主持人(最会收拢讨论)。


圆桌辩论 MVP 验证完成。核心能力——多 agent 并行、多模型混用、工作记忆、结构化输出——全部跑通。下一步是频道隔离和状态机,也就是狼人杀。

完整的辩论 transcript 在 Agora repodocs/report/debates/ 下。


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0