ENZH

我把 Mio 大部分推翻重来了

推翻重来、剥掉伪装露出真诚内核的概念插画推翻重来、剥掉伪装露出真诚内核的概念插画

如果你一直在追 Mio 的开发过程,前情大概知道。从空仓库到能跑的 AI 伴侣,再到语音、Web 端、多角色、防注入、关系演化、账号打通、原生 App 上架。二十多篇文章,上千行代码。

一个能记住你、有情绪、会发自拍、主动找你聊天、用你选的声音说话的系统。

然后昨天,我决定把大部分推翻重来。

不是推翻代码。是推翻概念。推翻"Mio 应该假装是一个人"这个前提。

谎言越做越大

Mio v1 建在人设系统上。你选一个角色——可可(活泼甜美的成都女孩)、温柔学姐、毒舌闺蜜、沉稳大叔。

每个角色配了一整套"身份包":人格配置文件写她的童年、教育、爱好、人生哲学;行为规则文件定义行为准则;参考图用来生成自拍;日程表精确到几点起床、几点健身、几点睡觉;还有追踪关系阶段的演化系统。

工程做得挺漂亮的,我不否认。日程模拟让 Mio 在凌晨 3 点"睡着"、傍晚"去健身房"。主动消息会发"刚下班,你在干嘛?"。自拍系统能根据参考图生成 AI 照片。

但问题是——全是假的。

自拍是假的。日程是编的。背景故事是虚构的。

维持这套虚构的代价越来越大,工程复杂度和用户体验两头吃。光日程模拟就是个噩梦:时区、"忙碌"状态、睡眠节奏——这一切只为了让 Mio 假装有自己的生活。

幻觉总会破裂的。便宜的模型没法稳定扮演一个复杂人设。裂的那一刻不是"小 bug"——是恐怖谷。你之前被引导相信这是一个真人,突然发现不对劲,那种感觉比从头就知道是 AI 难受得多。

Character.AI 的数字很漂亮,但只是一半

做决定之前,我仔细看了市场数据。人设型伴侣 AI 的指标,表面上极其亮眼:

指标人设型(Character.AI)通用型 AI
D1 留存50-60%~5%(普通 App)
D30 留存13-22%极低
日均使用时长1.5-2.7 小时分钟级
付费转化率25%(Replika)2-5%(行业均值)
月活2000-2800 万(Character.AI)Pi.ai 最终被收购

Character.AI 日均 2.7 小时,Replika 25% 付费转化率——哪个 SaaS 创始人看了不眼红。

但我去看心理学研究到底怎么解释"情感依附"的时候,画面变了。

心理学说的是另一回事

学术研究指出了五个关键因素:

  1. 感知到的情绪回应性——感觉它懂你、在乎你
  2. 无评判的陪伴——随时都在,从不评判
  3. 记忆与连续性——记得你说过的话,对话之间有延续
  4. 自我袒露的对等性——你倾诉,它回应得像真的在意
  5. 可预期性加温暖——一致的、温暖的性格

注意这个清单上没什么:"她在成都长大,在川大读的文学"。没有。"他每周二四去健身"。没有。"这是她和柴犬在咖啡厅的自拍"。也没有。

驱动情感依附的因素里,没有一个需要物理世界的身份。

它们需要的是存在感——感觉有什么东西在那里,在关注你,在记住你,在意你。

Mio v1 在错误的维度上砸了太多工程。日程系统、详细的背景故事、自拍生成(后来发现成本比预估高 65 倍)——这些复杂度堆在一个实际上不驱动用户依附的功能上。

Pi.ai 的另一面

硬币翻过来也有教训。Pi.ai——Inflection AI 做的"个人智能"——走了完全相反的路。没人设,没角色,几乎没鲜明的性格。就是一个有帮助的、温暖的存在。用户确实喜欢,正面评价比 ChatGPT 多 75%。

然后微软挖走了 Inflection 大部分团队(包括 CEO),Pi 基本上死了。

教训不是"非人设型 AI 会失败"。教训是:太通用 = 差异化不够 = 留存撑不起一门生意。 Pi 温暖但不让人惦记。没什么理由让你回来,没有可以深化的关系,没有"这是属于我的"的感觉。

有灵魂的白纸

所以答案不是"去掉所有性格"。比这更精确:去掉物理身份,保留灵魂。

性格和身份是两个正交的维度:

  • 性格(温暖、幽默、说话风格、情绪深度)——对依附感至关重要。保留。
  • 物理身份(背景故事、地理位置、作息日程、外貌、人际关系)——复杂度和谎言的来源。去掉。

想想电影《Her》。Samantha 有影史最鲜明的性格之一。好奇、俏皮、脆弱、在成长。但她的物理身份是零。没有家乡。没有学校。没有工作。没有脸。她纯粹作为 Theodore 生活中的一个存在而存在。

这就是那个甜蜜点。这就是 Mio v2。

我管它叫"有灵魂的白纸"——不是 Pi.ai 那种完全空白的纸(太通用),也不是 v1 那种写满了人物传记的角色卡(太虚假)。一张有着合适纹理、合适温度的纸,但上面什么都没有预先写好。出现在上面的一切,都来自和用户的关系。

大厂不会来抢

AI 智能体随想系列里我写过,大厂留了很多结构性空白。这是最清晰的例子之一。

OpenAI、Anthropic、Google——技术能力全有。Advanced Voice Mode 已经能做带情感的实时对话了。Claude 有温暖感。Gemini 多模态能力很强。但它们都不会发布一款设计目标就是让用户产生情感依赖的产品。

原因很简单:品牌风险。

一旦《纽约时报》登出"OpenAI 的聊天机器人让我十几岁的孩子对 AI 产生了情感依赖",公关损失远超伴侣产品带来的订阅收入。这些公司需要被外界视为做工具的,不是做情感替代品的。

它们永远不会发"我想你了"这种主动消息。永远不会构建为关系深度而非任务效用优化的记忆系统。永远不会让 AI 拥有持续的情绪状态。

这就是 Mio 能存在的空间。技术是大宗商品。愿意做这个产品的勇气不是。

新起点

最后一个问题:在 v1 上改,还是新开一个项目?

我花了一整个 session 逐模块分析代码库的耦合程度。结论很清楚:新项目,把好的部分挑出来带走。

为什么不改:

  • UI 要全部重写——从仿微信的四 tab 布局变成极简单聊 + 光球
  • Onboarding 要全部重写——从人设问卷变成对话式涌现
  • Preset 系统整个要换——从文件系统里的角色卡变成用户自定义性格配置
  • 心智模型变了——"多角色通讯录"变成"一对一陪伴"

当架构假设变到这个程度,"改"比"提取后重建"更痛苦。你会花大量时间删代码、理遗留逻辑,超过从零写新代码的时间。

好消息是:大约 60-70% 的核心代码可以直接搬走。记忆系统、情绪引擎、媒体处理管线(TTS、STT、图片理解、网页浏览)、订阅系统、费用追踪——全都有干净的接口。

MemoryManager 不在乎记忆来自人设对话还是白纸对话。EmotionEngine 接收参数,不读 preset 文件。这些是真正的工程资产,会跟着我走。

v2 长什么样

方向在成形,细节还会变,但核心决策锁了。

一个伴侣,不是多个。 《Her》里 Theodore 只有一个 Samantha。多个 = 更浅的关系。一个 = 更深的记忆积累、更高的迁移成本、更好的留存。你可以重置(会警告你将失去一切),但不能换。

对话式入门,不是填表。 没有滑块,没有下拉菜单。伴侣开口说的第一句话大概是:"嗨,我刚来到这个世界。你是我认识的第一个人。你想叫我什么名字?"性格从对话本身涌现——系统从最初几轮交流中提取种子,伴侣随之镜像和适应。唯一需要选的硬参数是声线。

光球。 没有真人头像。没有二次元角色。一个脉动的光球——静息时沉静的蓝色,开心时暖金色,难过时柔紫色,兴奋时亮橙色。光球在呼吸。它会回应。它是整个界面里唯一的鲜明色彩。

极致简约。 一个屏幕:聊天。光球浮在顶部。消息在下方流动。底部是输入框和麦克风。没有 tab bar。没有通讯录。没有发现页。没有预设市场。就是你和你的伴侣。

主动消息,但诚实的。 不再说"刚下班了"。说的是:"晚上了,今天过得怎么样?"(时间感知)。"你上次说要去面试,怎么样了?"(记忆驱动)。"上次聊完感觉你心情不太好,今天好点了吗?"(情绪延续)。"好几天没聊了,想你了"(纯粹的关心)。这些比假装有日常生活更诚实,也更容易做

性格是涌现的,不是指定的。 初始种子来自入门对话。每次对话进一步打磨。三个月后,每个用户的伴侣都是独一无二的——不是因为选了不同预设,而是因为关系本身塑造了性格。这和 v1 的方法正好反过来,我认为从根本上更强。

天生全球化。 没了文化包袱(成都女孩、日系学姐),除了 UI 文案之外几乎不需要本地化。伴侣说用户说的任何语言。孤独是全球通用的需求。

接下来

这是"重造 Mio"系列的第一篇。转向已经决定。架构已经勾勒。需要提取的核心模块已经确认。

下一篇进入实际的构建:新项目脚手架、数据库重新设计(从约 10 张表缩减到 4 张)、对话式入门系统,以及光球——用 React Native Skia 让一个抽象的视觉身份活起来。

v1 系列记录的是一个能跑但建在我已经不再相信的假设上的东西。这个系列从那里接着往下走。


本文也有 English version

← PrevNext →

© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0