我调研了 20 个多 agent 项目，没一个能直接用

Agora · 第 1 篇 / 共 7 篇

上一篇讲了出发点：凑不齐人的时候让 AI 顶上，然后发现游戏和协作要的是同一套基础设施。这篇讲我具体调研了什么、看到了什么。

我想干的事情大概是这样的：让 claude、gpt-4o、gemini 坐在一起辩论；或者来一局九人狼人杀，三个不同的模型扮狼人；或者跑一场剧本杀，每个 AI 拿着不同的线索互相试探。

去 GitHub 搜了一圈，相关项目有二十几个，最大的六万多星，看起来选项挺多。结果一个一个真跑下来，没一个能直接用。真的是没一个能直接用，不是我挑剔。

调研完我大概得出三个判断：

多 agent 交互这个赛道几乎是空的——专注游戏/交互的开源项目，没有一个超过 100 星
通用框架和特定游戏分两头走，中间缺一个平台层
做多人游戏和做多人协作，要的基础设施一模一样

两头都有人做，中间没人

先说通用框架这头，项目不少，星数也不低。AgentScope 是阿里出品的，23000 多星，Python 框架，有个 MsgHub 做消息分组，自带一个狼人杀 sample。MetaGPT 67000 星，做多 agent 协作写代码。CAMEL 16000 星，角色扮演 agent 的研究框架。

这些框架解决的问题是「多个 agent 怎么一起完成一个任务」。但它们没有「房间」这个概念——你没法创建一个空间，拉几个 agent 进去，配好规则，然后看它们互动。

AgentScope 的 MsgHub 算是最接近的，它能做消息隔离，也能动态管理订阅者。但 MsgHub 是代码级别的 context manager，你得写 Python 代码才能跑起来。让用户点两下鼠标就创建一个狼人杀房间这种事，它做不到。

再看游戏这头，星数就低得多了。ChatArena 是 Farama Foundation 做的，1500 星，三层架构 Arena > Environment > Players，设计挺漂亮的，但 2025 年 8 月废弃了。Google 做过一个 Werewolf Arena，46 星。ai-murder-mystery，16 星。jubensha-ai 89 星，算是中文 AI 剧本杀里最成熟的。DnD 相关的有五六个，加起来不到 300 星。

也就是说，专门做多 agent 游戏或者交互的开源项目，没有任何一个超过 100 星。

但需求端不是这个样子的。三省六部的视频在 B 站有几百万播放，AI 狼人杀的 demo 每次出来都能刷一波讨论。需求挺明确的，只是每个爆款 demo 背后都是一次性 hack，跑完那一场就没了。

二十几个项目，大概分四类

通用多 agent 框架。 AgentScope 是我评估得最深入的——agent 抽象设计得挺干净（reply() + observe() 双接口），记忆系统有工作记忆压缩和长期语义检索，工具系统支持 ReAct 循环。但它 v2.0 正在大改，日常维护只有两个人，70% 的 issue 没人回。MetaGPT 面向的是软件工程工作流，不是交互场景。CAMEL 是研究框架，拿来跑实际游戏很勉强。

游戏专项。 ChatArena 的架构最优雅，但已经废弃了。斯坦福的 Generative Agents 是记忆系统的标杆——observe → reflect → plan 这个循环——但它是个社会模拟实验，不是能拿来跑游戏的平台。当皇上（2600 星）用 TypeScript 实现了三省六部，有 dashboard UI，但只做了这一个场景，没有可复用的底层。

剧本杀 / TRPG。 ai-murder-mystery 做得最完整——React + FastAPI，多 agent 人格加记忆，有证据系统，还有完整的 Web UI。但只有 16 星。jubensha-ai 做了 TTS 和 AI 生图，更成熟一些，89 星。TRPG 方向有 dnd-llm-game（101 星）和四五个 100 星以下的项目，全是单场景实现。

闭源参考。 阿里国际的 Accio Work 给了我最关键的产品参照。它做的是群聊式的多 agent 交互：建一个 agent 团队就像建微信群，分配任务就像发消息。我只能说这个交互隐喻真的解决了多 agent 最大的 UX 难题——你不需要跟用户解释什么是 agent 编排、什么是消息路由，「群聊」这个东西大家天然就理解。

AgentScope sample 里的 evotraders 也值得单独提一下，它有两个前端组件做得好：AgentFeed（agent 活动流）和 RoomView（语音气泡 + 头像布局）。这两个视觉模式可以直接复用。

做好游戏和做好协作，其实是同一件事

这次调研里我觉得最有用的发现就是这个：狼人杀和三省六部，底层要的东西是同一套。你拆一下狼人杀需要什么：

N 个 agent，各有角色和人设
频道隔离：狼人有私密频道，平民看不到
状态机：黑夜 → 白天讨论 → 投票 → 淘汰
结构化决策：投票必须从存活玩家中选
实时消息推送

再看三省六部：同样是 N 个 agent，只不过人设换成了职能和权限；频道隔离也要，各部只能看到自己管辖的信息；流程上是请示 → 审批 → 执行；奏章必须包含问题和建议，这也是结构化决策；消息同样得实时推。

对着看一遍，其实就是角色换成了职能，别的几乎不用动，底层就是同一套东西。

所以平台该长什么样也就清楚了：核心能力就是 agent 管理、频道隔离、流程控制、结构化输出、实时通信这五件事。上面配一套狼人杀规则它就是狼人杀，换成圆桌辩论规则就是辩论，换成三省六部规则就是组织模拟。差异只在规则配置这一层，下面的基础设施完全复用。

这也解释了这个赛道为什么是空的：大家要么在做通用框架，太底层，没有模式抽象；要么在做特定游戏，太上层，没有可复用的平台。中间这一层没人做。

模型能力过线了。 claude、gpt-4o、gemini 2.5、qwen 3 已经可以可靠地遵循复杂的角色指令。两年前是不行的——模型会串角色、忘设定、忽略规则。现在九个 agent 各扮各的角色，跑完一整局狼人杀不串，做得到了。

结构化输出生产就绪。 Zod schema + generateObject() 能在类型系统层面约束 agent 的决策空间。投票只能从存活玩家里选，这不是靠 prompt 说「请只选这些人」——是 agent 物理上就选不了别人。这一下多 agent 游戏能不能跑通，就不用赌模型听不听话了。

这块空间是真的空。 没有 100 星以上的竞品，ChatArena 废弃了，AgentScope 不做这个方向，Accio Work 是闭源的。

另外还有一个分发上的好处：AI agent 互相辩论、互相博弈，这个过程本身就挺好看的，随手录一局狼人杀就能拿出去发。

下一篇讲决策：面对 AgentScope 这种两万多星的成熟框架，为什么我选择不 fork——面对两万星的框架，我选择不 fork。

我调研了 20 个多 agent 项目，没一个能直接用

两头都有人做，中间没人

二十几个项目，大概分四类

做好游戏和做好协作，其实是同一件事

继续阅读

凑不齐人的时候，AI 能不能顶上

Agora 每个核心模块的设计都有出处

我最后没 fork AgentScope，决定自己搭

订阅更新