凑不齐人的时候,AI 能不能顶上
想跑团,凑不齐人。想玩剧本杀,差两个。想来一局狼人杀,只有四个人在线。如果 AI agent 能坐进来补位——不是那种复读机式的 NPC,是真的有人设、会推理、能演戏的 agent——会怎样?
22 parts · Feb 28, 2026 – Apr 23, 2026
想跑团,凑不齐人。想玩剧本杀,差两个。想来一局狼人杀,只有四个人在线。如果 AI agent 能坐进来补位——不是那种复读机式的 NPC,是真的有人设、会推理、能演戏的 agent——会怎样?
AX 的 AI 雷达每天从 50 多个信源抽约 500 条内容,挑 15 条给我。选题不靠 prompt,靠一份能版本化、能 diff 的 Markdown 编辑策略——一个 Agent 从反馈里迭代它。讲这把雷达的架构取舍和关键设计决策。
想让几个 AI 坐一起辩论或来一局狼人杀?GitHub 上有二十几个相关项目。框架那头星数不少但没有'房间'概念,游戏那头全是一次性 hack。中间缺一个平台层——而搭好这个平台层之后你会发现,做好多 Agent 游戏和做好多 Agent 协作,用的是同一套东西。
有人用 AI 两小时做了个游戏。我决定做三个。不写代码,只当制作人。第一个游戏的概念阶段,AI 写出了比我更好的剧本。
AI 随想第十篇说代码学会了自我进化。那是观察。这篇是动手。
妙鸭相机首月日活 60 万,一年后跌了 94%。大多数 AI 拍照 App 卖的是新鲜感——但新鲜感会衰减。我想试试不同的路:用「灵感卡」把完整的视觉公式打包好,3 步出片 + 配文。这是目前的思考和实验记录。
朋友说'做云佩戴'。调研 20 分钟就否掉了。但同一套 Gemini 管线换个 prompt,就能给珠宝商生成编辑级产品内容——棚拍主图、宝石星图、色彩基因页——成本是请摄影师的百分之一。一天后,识川上线了。
V2 核保系统是一条线性流水线——提取一次,评估一次,报告一次。没有 agent 能质疑别人的结论。V3 用 5 个自治 agent 替换了它:反思输出质量、用工具验证论断、意见分歧时结构化辩论。63 个测试,每个 SME 只花几毛钱,一个 observe-think-act-reflect 循环驱动一切。
上一篇讲的是我用 AX 雷达的一手体验。这一篇讲我给它加了 HTTP API、MCP server 和一份 Claude Skill——让 Claude 自己能查、能搜、能保存。两张脸共用一个后端;sha256 不是 bcrypt;pgvector 早就在了;Skill 才是放 domain 知识的地方。
AgentScope 两万三千星,阿里出品,agent 抽象干净,记忆系统完善。fork 它搭一个多 Agent 平台,看起来是最省力的路。但跑完八轮自我反驳,结论是:不 fork,自己搭——但系统性地偷它的设计模式。
Dead Signal 是第二个游戏。一个调查记者,一部连环杀人案受害者的手机,72 小时的碎片数据。恐惧不来自画面,来自数据。
识川本来只做珠宝。一个问题——'为什么不是全品类全链路?'——把它变成了 7 个品类的电商内容平台:AI 图片、小红书文字卡、平台适配裁剪、客户端视频生成,99 元/套,95%+ 毛利。
拆解 ÉLAN 的 10 段式 prompt 系统、让奢侈品「不经意」出现的 VANITY_DESIGN_INSTRUCTIONS、SSE 流式推送架构、三种风格的配文生成,以及真实成本结构——输出图片的 token 占了绝大部分开销。
Part 2 的「6 槽位通吃 7 品类」是一层漂亮的抽象。跑了两周,测出牛仔外套生成「宝石星图」的 bug。这一篇讲抽象失守在哪一层、为什么没用户时分阶段上线是假安全感、以及把服饰和美妆各自推倒重来的过程。
不 fork 不等于不学。从 AgentScope 偷 reply/observe 双接口和消息隔离模式。从 ChatArena 偷三层架构。从斯坦福 Generative Agents 偷记忆反思循环。从 Accio Work 偷'建群聊'的交互隐喻。每个核心模块都有明确出处,但代码是自己写的。
Shadow Access 翻转了 found-phone 游戏的叙事。你翻的不是别人的手机,是自己的。一个干净的 iOS 界面慢慢被「感染」,你要找的不是线索,是异常。
我同时派出 5 个调研 Agent,分头研究小红书拍照趋势、经典 Pose、文案公式、奢侈品美学、竞品 UX。42 个数据点回来了。从这些调研里,我设计了灵感卡目录——一个把场景、Pose、调色、文案全部打包好的套餐系统。这篇拆开一张卡讲到原子级别,也坦诚讲哪些设计有效、哪些踩了坑。
Agora 跑通了第一个 MVP:6 个 AI debater + 3 个 AI judge,三个模型各出两个人设,辩了三个话题。预期是及格就好,结果 Claude 引亚里士多德,GPT 举 Log4Shell,Gemini 演了个愤怒的 17 岁创作者。63 次 LLM 调用零失败。
ÉLAN 的目标用户拍照在手机上,发帖在手机上。纯网页版错过了核心场景。这篇记录了把 Next.js 应用搬到 React Native (Expo) 的真实过程——哪些能复用,哪些不能,以及一个 SSE 流式传输的坑是怎么填的。
Agora 的第二个模式上线了。9 个 AI agent 打了一局标准预女猎狼人杀,频道隔离让狼人能私聊但村民看不到,盲投保证没人跟票,状态机驱动夜晚→白天→投票的完整循环。三局下来最让我震惊的不是技术跑通了,是 Claude 扮演的狼人在投票理由里写了一整段阴谋论述——而且逻辑完全自洽。
Phase 2b 上线:守卫、警长、白痴、遗言、猎人连杀,全部作为可开关的进阶规则。12 人局里,AI 守卫第一晚选了「今晚不守」——它的理由是要避免和女巫撞救。一个 AI 在思考两个角色之间的规则交互。这段话我反复看了两遍。
一天内给 ÉLAN 加了 37 张旅行地标灵感卡,发现真正的问题不是内容创建——是发现。用户想的是氛围,不是地理位置。把浏览体验重建在 vibe + 地区双轴筛选上,用并行 AI agent 编排了 37 个卡定义、37 张封面、444 张样本图。
© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0