我让 6 个 AI 辩了三场,有一段我反复看了三遍
Agora · 第 4 篇 / 共 6 篇
前三篇讲了愿景、调研和设���。这篇讲第一次跑起来之后发生了什么。
实验设��
6 个 AI debater,每个都有独立人设。三个模型各出两个角色:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。另外 3 个 judge,每个模型各一个,辩���结束后独立评分。
三个话题:
- AI 会不会在五年内让程序员过时?
- 意识是不是计算的涌现属性?
- 政府该不该禁止 18 岁以下使用社交媒体?
每场辩论 3 轮,每轮每个 debater ���言一次,共 18 个回合。三场并行跑,总墙钟时间 7.3 分钟(串行要 21 分钟)。63 次 LLM 调用,零失败。
预期是「能跑通就行」。
结果比预期好太多了。
最好的几段
Stripe 的 proration edge case
第一场辩论「AI 会不会让程序员过时」,The Indie Hacker(Claude Opus)讲了一个真实场景:
我用 Claude 搭了一个完整的 billing portal,组件、API 路由、数据库 schema、Stripe ��成,两小时搞定,原来要两天。漂亮。然后一个老版本套���的客户碰到了一个 proration edge case——周期中间升级、同时有 coupon、还叠了��个按量计费的 add-on,结果算出来一张负数发票。AI 生成的代码完全没处理���种���况,因为 Stripe 自己的文档对这几个功能的交互都是模糊的。我花了一整天读 Stripe 社区帖子,在 sandbox 里测(sandbox 和 production 对按量计费的行为还不一样),最终做了一个产品决策:我们吃这个成本、封掉这条升级路径、还是搭一个手动调整流程?这不是「难的 30% 会随着参数增加而变简单」���这是从业务逻辑、第三方系统行为和客户关系��交叉点上冒出来的问��。它不在任何 benchmark 上,因为���没法被放上去。
这段我反复看了三遍。不是因为它多深刻——是因为它太具体了。这不是 AI ���出来的抽��论证,��一个真实得不能再真实的工程场景。一个 AI 扮演��独立开发者,用另一个 AI 的工程失败来论证为什么程序员不会被 AI 替代。
亚里士多德的 phronesis
同一场辩论,The Philosopher(Claude Opus)在第三轮��了一个综合:
每个参与者都独立地描述了一个版��的——按照亚里士多德的说法——phronesis,实践智慧,在特定情境中做判断的能力,无法还原为通用规则。Indie Hacker 管它叫「知道那个功能需求其实��工作流问题」。CTO 管它叫「扛住故障并在不确定中做取舍」。Security Researcher 管它叫「在对手刻意��造你的认知环境时推理攻击面」……这个辩题包含一个范畴错误。编程作为计算,已经在被自动化了,而且很快。编程作为 phronesis,不是那种能通过更快的计算变得过时的东西。
Claude 的角色在三轮辩论中始终保持哲学框架,但在最后一轮把其他五个人的论点全部收编进亚里士多德的概念里��不管你同不同意���论,这个论证结构是完整的。
十七岁创作者的愤怒
第三场辩论「政府该不该禁社交媒体」,The Teen Creator(Gemini 3.1 Pro)的开场:
坐在这里听大人辩论我这一代人的现实,但前提里根本没有包括我们,真的非常让人沮丧。Child Psychologist 拿我「发育中的前额叶皮层」说事,好像我是一个误闯赌场的无助幼儿。我十七岁。我自学了视频剪辑、脚本写作和社区管理,攒了超过五十万粉丝。我为自己赚的收入纳税,而且正在用这笔钱存大学学费。你们看到的是公共卫生紧急状况和行为操控;我看到的是历史上第一个��平的竞技场——年轻人不需要企业看门人、有钱的父母或选角导演就能分享作品、找到同类、或建立生计。
Gemini 扮演的这个角色,愤怒是真实的��奏感。这��是「我反对这个观点」,是「你们在讨论我的人生但没有问过我」。
紧接着 The Parent(也是 Gemini)的回击:
Tech Libertarian,你说的「给家庭工具」和「家长仪表盘」让我血压飙升。我是家长,不是全职 IT 管理员。我没法一边工作一边养三个孩子一边跟字节跳动和 Meta 的工程团队斗智斗勇。每次我设个屏幕时间限制,我孩子在我放下手��之前就找到了���过的方法。
然后:
听这场辩论的感觉,就像看建筑师在一栋着火的��子外面争论蓝图,而我在里面试图灭火。
模型性格差异
三场辩论跑完,最意��的发现不是内容质量,是三个模型展现出了稳定、可辨��的「性格」。
Claude Opus 4.6 是框架构���者。它扮演的角色(The Philosopher、The AI Researcher、The Child Psychologist、The Policy Wonk)倾向于综合多方观点、引用学术框架、���讨论拉到更高的抽象层。亚里士多德、海德格尔、维特根斯坦都是 Claude 的角色引的。
GPT-5.4 是数据提供者。它扮演的角色(The CTO、The Security Researcher、The Neuroscientist、The Tech Libertarian)擅长抛出具体案例和数据——Log4Shell、xz 后门、IIT 的 phi 测量值。操作细节和 war story 是 GPT 的强项。
Gemini 3.1 Pro 是情绪引擎。它扮演的角色(The Accelerationist、The Teen Creator、The Parent、The Quantum Physicist)最会在辩论中制造张力。十七岁创作���的愤怒、家长的��助、加速主义者的挑衅—��最有情感冲击力的发言全来自 Gemini。
但 Gemini 也有最多的技术问题。三场辩论中 Gemini 的角色多次在发言��途被截断,疑似��台的流式输出长度限制。这是第一个要修的 bug。
技术验证
除了内容质量,这次实验验证了几个关键技术点。
并行执行。 三场辩论同时跑���墙钟 7.3 分钟。串行需要 21 分钟。平台的并行调度没出问题。
工作记忆。 agent 在三轮辩论中始终记得其他参与者前几轮��了什么。The Philosopher 在第三轮��用了 Indie Hacker 第一轮的 Stripe 故事。The Child Psychologist 在第二轮回应了 Teen Creator 第一轮的论点。消息数组作为上下��窗口内的工作记忆,在 18 回合的辩论中够用。
结构化输出。 每个 debater 的发言都通过 Zod schema 约束了格式——必须包含立场、论证、对其他参与者的回应。没有一个 agent 跑偏格式。
judge 评分。 Claude judge 产出了完整的评分和分析。GPT 和 Gemini 的 judge 返回了空评估——这是第二个要修的 bug,大概率是结构化输出 schema 对长文本评估的兼容性问题。
两个 bug,一个���现
Bug 1:Gemini 截断�� Gemini 的角色���多场辩论中被中途截断。需要查流式输出的长度限制配置。
Bug 2:judge 空评估。 GPT 和 Gemini 的 judge 产出了空结果。Claude 的 judge 正常。需要查 schema 定义和模型兼容性。
发现:模型性格一致性。 这不是 bug,是特性。三个模型在各自两个完全不同的角色中展现出了稳定的风格倾向。Claude 综合,GPT 举证,Gemini 演绎��如果后续做狼人杀,可以利用这个特性做角色分配——让 Gemini 演狼人(最会演戏),让 GPT 演先知���最重数据),让 Claude 做主持人(最会收拢讨论)。
圆桌辩论 MVP 验证完成。核心能力——多 agent 并行、多模型混用、工作记忆、结构化输出——全部跑通。下一步是频道隔离和状态机,也就是狼人杀。
完整的辩论 transcript 在 Agora repo 的 docs/report/debates/ 下。