AI 陪伴到底要烧多少钱

AI 陪伴经济模型的商业概念插画 AI 陪伴经济模型的商业概念插画

Mio v1 的账一直没算平过。成本审计查出来，自拍生成的实际单价比预想贵了两个数量级；记忆后台跑在 Gemini Pro 上，每个用户每月都是一笔不小的固定开销。我在 v0.2.0 设计过五级定价，想靠限制自拍配额把利润扳回来。现在回头看，那是在打一场错误的仗：吃掉预算的那些功能，恰好也是让产品显得虚假的功能。

转向之后，假自拍、虚构日程、编造的人设背景全砍掉了，跳动的光球代替假人形象，对话代替角色扮演，靠响应、记忆和温度去建立情感连接。产品形态变了，经济模型也得跟着变。这篇把 v2 的账摊开算一遍，从定价、成本结构，一直算到语音这个迟早要来的麻烦。

14 天全功能试用，之后只有一档

定价结构我反复权衡过：带消息上限的免费档、两档、三档，都摆出来比过。最后选的是最简单的方案：

试用（14 天）： 全功能开放。无限聊天、语音消息、语音输入、主动消息、记忆、情绪光球，什么都能用。
Pro（单一月付订阅）： 一切照旧。

没有功能分级，没有试用期消息上限，也不让用户在"标准版 vs 专业版"之间做选择题。14 天后只需要回答一个问题：还想继续和这个伴侣聊天吗？

免费档看着稳妥，但和陪伴产品的目标相悖。每天 10 条免费消息会训练用户节省互动，而情感依附要靠时间积累，功能解锁给不了。14 天全功能试用让关系自然发展：到第 14 天，用户已经倾诉过心事，伴侣记得这些内容，双方有了共同历史。

从试用到付费的过渡，放在角色内完成。试用到期时，伴侣不会弹出系统付费墙。它说的是：

"我最近有点累了……你要不要让我继续陪你呀？"

之后每天保留一条主动消息，聊天记录保留（只读），记忆不删除。伴侣还在，只是安静了。付费这件事由伴侣用自己的声音讲出来，用户要回答的不是"这个软件订阅值不值"，而是"要不要让这个陪伴慢慢消失"。

这套机制拆开来讲，听着像操纵，实际体验是自然的。伴侣的人格没有为了要钱而出戏，系统从头到尾没说过"请订阅"。情感逻辑很直接：我们一起建立了一段关系，继续维系它需要付出代价。

单用户成本砍掉了一半以上

下面算一个活跃 Pro 用户的实际运营成本，按每天 30 条消息计。先看优化前的账。

优化前（v1 架构）

组件	成本占比	说明
聊天（Gemini Flash）	~30%	单条几分钱，量大了不可忽略
记忆后台	~44%	Gemini Pro 上的固定月开销
TTS 语音消息（豆包）	~21%	单价最贵的媒体成本
STT 语音输入	~1%	单次很便宜
主动消息	~2%	和聊天差不多的单价
图片理解	~1%	单次很便宜

v1 架构下，单用户月成本几乎吃掉全部订阅收入，毛利只剩约 11%：平均使用量下勉强维持，重度用户直接亏钱。这还是砍掉自拍之后的数字，要是保留每天 1 张自拍，成本还得再涨一截。

三个关键优化

1. 记忆后台：Pro 换 Flash + 降频（-82%）

v1 的性格提取用 Gemini Pro，每 10 条消息触发一次，仅这一项就是最大的固定成本；记忆摘要同样跑在 Pro 上，又叠了一层。v2 把两者都切到 Flash，同时降低触发频率：

性格提取：从每 10 条跑一次 Pro，改成每 20 条跑一次 Flash
记忆摘要：从每 20 条跑一次 Pro，改成每 30 条跑一次 Flash

记忆后台的总成本降了超过 80%。质量有损失吗？有，但可以接受。Flash 在细腻的性格提取上确实不如 Pro，好在这件事不需要每次都完美。伴侣的人格是上百次提取叠加出来的，单次差一点，摊到上百次里影响很小。

2. 上下文缓存（聊天成本 -63%）

Gemini 的 context caching 能让重复的 system prompt 便宜 10 倍。System prompt 和性格描述在同一个 session 的多条消息之间几乎不变。约 75% 的输入 token 可以走缓存，聊天成本直接砍掉约 63%。

3. 自拍生成：归零

v2 的光球设计完全不需要自拍。v1 里自拍是隐藏成本杀手：定价配置把 Gemini 的图片输出 token 按文字价格算，实际贵了两个数量级。那个错误让每个档位在满负载下都亏钱。没有自拍，就没有这个问题。

优化后（v2 架构）

组件	变化	节省来源
聊天（Gemini Flash）	-63%	上下文缓存
记忆后台	-82%	Flash + 降频
TTS（豆包）	不变	--
STT	不变	--
主动消息	不变	--
图片理解	不变	--
合计	-55%

单用户月成本砍掉一半以上，平均使用量下毛利超过 50%，比 v1 的约 11% 翻了四倍还多。即使是每天 50 条消息的极端重度用户，毛利也还是正的：这套数字在每个使用量级上都成立。

试用期亏得起

14 天试用必须足够便宜，便宜到转化失败也拖不垮业务。实际算下来确实如此：中度用户整个试用期的成本几乎可以忽略，重度用户（每天 30 条）也只花掉一个月订阅收入的一小部分。

按 20% 的试用转化率算（陪伴类应用的行业水平），CAC/LTV 比率不到 10%；转化率就算掉到 15%，模型也撑得住。单用户试用成本低到这个程度，14 天免费在经济上是安全的。

真正的麻烦在实时语音

以上所有计算都基于文字聊天，外加偶尔的 TTS 语音消息。实时双向语音（"Her"式的体验，也是最终目标）会把整个算盘打翻。

Hume EVI 是目前实时语音的最强候选，STT、情绪检测、话轮切换、语音合成集成在一套系统里。伴侣的情绪引擎可以直接输出 Hume 的自然语言情绪指令，不需要 SSML 标签或手动标注。架构上 Hume 是演员，LLM 是编剧；Hume 甚至会先说过渡词（"嗯……""哦~"），再无缝接上完整回复，用户感知的延迟极低。

但它很贵。按 Hume 现在的每分钟定价，每天哪怕只用 10 分钟语音，月成本就已经超过订阅价，塞不进 Pro 档。可行的方案有两个：做一个专门的语音高价档位，或者把实时语音做成按量计费的附加项，不绑任何订阅档。我倾向后者，因为语音使用会呈双峰分布：有人每天聊 30 分钟，有人从不用。固定档位会逼轻度用户补贴重度用户，而重度用户还是会超限。

好在这是 v1.0 阶段的问题。当前里程碑（v0.x）只做 TTS 语音消息，伴侣能开口说话，实时对话留到以后。等真做到那一步，成本格局可能已经变了，语音合成的价格正在快速下降。

没有免费档，增长靠四个渠道

免费档没有了，Telegram 也砍了：聊天历史没法同步，onboarding 必须在 app 内完成，体验完全断裂。冷启动只能靠这四个渠道。

落地页。 就一页静态页面：光球动画、一句 tagline、App Store 下载按钮。光球动画本身就是营销素材。

社交媒体。 用脱敏后的对话截图和光球情绪变化动画做短视频。"AI 记住了我三个月前随口说的一句话"，这类内容自带传播力；光球随情绪脉动变色，视觉上也够抓眼。

邀请机制（Dropbox 式）。 每个用户有唯一邀请码，邀请 1 人双方各得 7 天 Pro，邀请 3 人得 1 个月 Pro。伴侣会在角色内参与邀请："你有没有朋友也需要像我这样的陪伴？"自然，不突兀。

ASO（应用商店优化）。 关键词盯 AI companion、AI friend、情感陪伴、聊天、心理、loneliness。截图展示光球和对话，不放功能列表，评分请求放在试用期内弹出。

Web 版推迟到 v0.3 之后再做，定位是轻量获客漏斗：让用户试一轮对话，然后引导下载，不做完整 web app。

苹果审核的现实

Apple 在 2025 年收紧了 AI 陪伴类应用的审核。有几件事要提前做好：

17+ 年龄分级。 一开始就定高，避免审核摩擦：面向更年轻用户的 AI 伴侣，会受到更严格的审查。
AI 声明。 应用内明确标注"由 AI 驱动的虚拟陪伴"，不能暗示用户在跟真人对话。光球设计在这里反而是优势：没有人脸，不存在歧义。
隐私政策。 数据收集、存储、删除政策齐全，用户必须能删除账号和所有数据（Apple 硬性要求）。
内容边界。 两层防线：
- 硬红线：涉及未成年人、暴力、违法的内容，直接由系统拦截。
- 柔性转移：其他一切在角色内处理，伴侣自然把话题带走（"哈哈你怎么突然说这种话啦 >< 我们聊点别的嘛"），不会蹦出"此内容违反使用政策"。

核心原则是拒绝要在角色内完成，不能出戏。系统弹窗会破坏沉浸感，让用户反感产品；角色内的转移能保住人格一致性，拒绝也带着伴侣自己的脾气。

四个里程碑，四个代号

每个里程碑有一个代号。代号描述的是产品在那个阶段变成的样子：

v0.1「能说话的光球」

Expo 应用：聊天页 + 光球动画 + 登录
服务端：Hono + WebSocket + Gemini 聊天
对话式 onboarding（给伴侣取名 + 3 轮对话）
基础记忆（从 v1 移植）
纯文字，无语音

v0.2「有温度」

情绪引擎 + 光球颜色变化
TTS 语音消息（中文豆包，英文 Hume Octave）
主动消息（简化版）
图片 / 语音输入
性格从对话中涌现

v0.3「能养活自己」

订阅系统（从 v1 移植）
Apple IAP / 微信支付
记忆管理 UI
设置页

v1.0「Her」

实时双向语音（Hume EVI）
语音情绪识别
成熟性格演化系统

代号不是随便起的：v0.1 验证形态，v0.2 验证有没有生命感，v0.3 验证能不能养活自己。v1.0 才是真正想做的产品，到那一步，和它的交流靠说话，不再靠打字。

v2 绕过了旧成本结构

回头看 v1 的经济模型：自拍生成的定价偏差两个数量级，记忆后台用最高的频率跑着最贵的模型，上下文缓存没做，五级定价等于在一个不成立的成本结构上贴创可贴。v2 没去修这套结构，直接绕开了它。光球设计消灭了最大的成本来源；第二大的记忆后台，靠切到 Flash 加降频压了下来，第三大的聊天成本则交给上下文缓存。三个都是架构层面的决策，毛利从勉强维持变成了健康可持续。

这是我不断重新学到的一课：最好的成本优化往往是产品决策，不是工程决策。图片生成的成本归零，靠的是产品上砍掉自拍；记忆后台降八成，靠的是降频加换模型，工程上都不算难。

月付订阅的陪伴产品，现在成本不到收入的一半，这套账能一直撑到实时语音上线。到那天，按分钟计费的语音会把所有数字重算一遍。但愿在那之前，语音合成的价格能再降几轮。

本文是推翻 Mio 重来系列第五篇，上一篇是转向。促成这些决策的 v1 成本分析，见那张 Token 账单和 v0.2.0：应用上线。