我调研了 20 个多 Agent 项目,没一个能直接用

Agora · 第 1 篇 / 共 5 篇


上一篇讲了出发点:凑不齐人的时候让 AI 顶上,然后发现游戏和协作需要同一套基础设施。这篇讲我调研了什么、看到了什么。

你想让 Claude、GPT-4o 和 Gemini 坐在一起辩论一个话题。或者来一局九人狼人杀,三个不同模型扮狼人。或者跑一场剧本杀,每个 AI 拿着不同的线索互相试探。搜 GitHub,发现二十几个相关项目。最大的有六万多星。看起来选项不少。但你真跑一下就知道——没一个能直接用。


三个核心判断:

  1. 多 Agent 交互这个赛道几乎是空的——没有任何专注游戏/交互的开源项目超过 100 星
  2. 通用框架和特定游戏分两头走,中间缺一个平台层
  3. 做好多人游戏和做好多人协作,需要的基础设施一模一样

1. 赛道两头有人,中间没人

通用框架这头,项目不少,星数也不低。

AgentScope,阿里出品,23000 多星。Python 框架,有 MsgHub 做消息分组,自带一个狼人杀 sample。MetaGPT,67000 星,多 agent 协作写代码。CAMEL,16000 星,角色扮演 agent 研究框架。

但这些框架解决的问题是"怎么让多个 agent 完成一个任务"。它们没有"房间"概念。你没法创建一个空间,拉几个 agent 进去,配好规则,然后看它们互动。

AgentScope 的 MsgHub 最接近。它能做消息隔离,能动态管理订阅者。但 MsgHub 是代码级别的上下文管理器——你想让用户点两下鼠标创建一个狼人杀房间,MsgHub 做不到。它需要写 Python 代码才能跑起来。

游戏这头,星数说明一切。

ChatArena,Farama Foundation 做的,1500 星。三层架构 Arena > Environment > Players,设计得漂亮。但 2025 年 8 月废弃了。Google 做过一个 Werewolf Arena,46 星。ai-murder-mystery,16 星。jubensha-ai,89 星,算是中文 AI 剧本杀最成熟的项目。DnD 相关的五六个,加起来不到 300 星。

没有任何一个专门做多 Agent 游戏或交互的开源项目超过 100 星。

三省六部的视频在 B 站几百万播放。AI 狼人杀的 demo 每次都能刷一波讨论。用户需求是明确的。但每个爆款 demo 都是一次性 hack。

2. 二十几个项目,分四类

我把调研的项目分成四类。

通用多 Agent 框架。 AgentScope 是我评估最深入的——它的 agent 抽象(reply() + observe() 双接口)设计得干净,记忆系统有工作记忆压缩和长期语义检索,工具系统支持 ReAct 循环。但 v2.0 正在大改,日常维护只有两个人,70% 的 issue 没人回。MetaGPT 面向软件工程工作流,不是交互场景。CAMEL 是研究框架,跑实际游戏很勉强。

游戏专项。 ChatArena 架构最优雅但已废弃。斯坦福的 Generative Agents 是记忆系统的标杆——observe → reflect → plan 循环——但它是社会模拟实验,不是可以拿来跑游戏的平台。当皇上(2600 星)用 TypeScript 实现了三省六部,有 dashboard UI,但只做了这一个场景,没有可复用的底层。

剧本杀 / TRPG。 ai-murder-mystery 最完整——React + FastAPI,多 agent 人格 + 记忆,证据系统,完整 Web UI。但 16 星。jubensha-ai 做了 TTS 和 AI 生图,更成熟,但 89 星。TRPG 方向有 dnd-llm-game(101 星)和四五个 sub-100 的项目,都是单场景实现。

闭源参考。 阿里国际的 Accio Work 提供了最关键的产品参照。它做的事情是:群聊式多 agent 交互。建一个 agent 团队就像建微信群,分配任务就像发消息。这个交互隐喻解决了多 agent 最大的 UX 难题——你不需要解释什么是 agent 编排、什么是消息路由,用户天然理解"群聊"。

AgentScope sample 里的 evotraders 也值得单独提。它有两个前端组件做得好:AgentFeed(agent 活动流)和 RoomView(语音气泡 + 头像布局)。这两个视觉模式直接可以复用。

3. 好游戏和好协作,是同一件事

这是调研中最重要的发现。

狼人杀需要什么基础设施?

  • N 个 agent,各有角色和人设
  • 频道隔离:狼人有私密频道,平民看不到
  • 状态机:黑夜 → 白天讨论 → 投票 → 淘汰
  • 结构化决策:投票必须从存活玩家中选
  • 实时消息推送

三省六部需要什么基础设施?

  • N 个 agent,各有职能和权限
  • 频道隔离:各部只看到自己管辖的信息
  • 层级流程:请示 → 审批 → 执行
  • 结构化决策:奏章必须包含问题和建议
  • 实时消息推送

把"角色"换成"职能",把"黑夜白天"换成"请示审批",把"投票"换成"表决"——底层一模一样。

这意味着:搭一个平台,核心能力是 agent 管理、频道隔离、流程控制、结构化输出、实时通信。然后在上面配一套"狼人杀规则",它就是狼人杀。配一套"圆桌辩论规则",它就是辩论。配一套"三省六部规则",它就是组织模拟。

差异只在规则配置。基础设施完全复用。

这也解释了赛道为什么是空的。大家要么在做"通用框架"——太底层,没有模式抽象;要么在做"特定游戏"——太上层,没有可复用平台。中间这一层没人做。

4. 为什么是现在

三个条件同时到位了。

模型能力过线。 Claude、GPT-4o、Gemini 2.5、Qwen 3 可以可靠地遵循复杂的角色指令。两年前不行——模型会串角色、忘设定、忽略规则。现在九个 agent 各扮各的角色,跑完一整局狼人杀不串,做得到了。

结构化输出生产就绪。 Zod schema + generateObject() 能在类型系统层面约束 agent 的决策空间。投票只能选存活玩家,不是靠 prompt 说"请只选这些人"——是 agent 物理上选不了其他人。这把多 agent 游戏从"大概率能跑通"提升到"确定能跑通"。

空间是空的。 没有 100 星以上的竞品。ChatArena 废弃了。AgentScope 不做这个方向。Accio Work 是闭源的。

还有一个分发优势:AI agent 互相辩论、互相博弈,天然产出可分享的内容。每一局狼人杀都是一段潜在的视频素材。


下一篇讲决策:面对 AgentScope 这样两万多星的成熟框架,我为什么选择不 fork——面对两万星的框架,我选择不 fork


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0