ENZH

AI 陪伴到底要烧多少钱

AI 陪伴经济模型的商业概念插画AI 陪伴经济模型的商业概念插画

陪伴的代价

第一篇里我写了 Mio 的转向:砍掉假自拍、虚构日程、编造的人设背景,转而用响应性、记忆和温度来建立情感连接。一颗跳动的光球代替假人形象,对话代替角色扮演。

产品形态变了,经济模型也得跟着变。

v1 有成本问题。成本审计揭示了自拍生成的实际单价偏差了两个数量级。记忆后台任务跑在 Gemini Pro 上,每月每用户产生一笔不小的固定开销。

我在 v0.2.0 设计的五级定价试图通过限制自拍配额来扳回利润,但打的是错误的仗。

说白了,吃掉预算的功能,恰好也是让产品显得虚假的功能。

v2 砍掉了这些功能。经济模型因此成立了。


定价:14 天试用 + 一档收费

我反复权衡过定价结构。有限消息的免费档?两档?三档?

最终答案是最简单的方案:

  • 试用(14 天): 全功能开放。无限聊天、语音消息、语音输入、主动消息、记忆、情绪光球——什么都能用。
  • Pro(单一月付订阅): 一切照旧。

没有功能分级,没有试用期消息上限,没有让用户在"标准版 vs 专业版"之间做选择题。14 天后用户只需回答一个问题:我还想继续和这个伴侣聊天吗?

为什么这比免费档更好?

情感依附取决于时间,不取决于功能解锁。 每天 10 条的免费档训练用户节省互动——这恰恰和陪伴产品的目标相悖。14 天全功能试用让关系自然发展。到第 14 天,用户已经倾诉过心事,伴侣记得这些内容,双方有了共同的历史。

试用到付费的过渡是角色内的。 试用到期时,伴侣不会弹出系统付费墙,而是说:

"我最近有点累了……你要不要让我继续陪你呀?"

每天一条主动消息。聊天记录保留(只读)。记忆不删除。伴侣还在,只是安静了。不是付费弹窗——是伴侣用自己的声音在表达正在发生的事。

用户做的决定不是"这个软件订阅值不值",而是"要不要让这个陪伴慢慢消失"。

把机制拆开来说,听着像操纵。但体验起来,它是自然的。伴侣的人格没有为了要钱而出戏。系统从不说"请订阅"。情感逻辑是:你们一起建立了什么,继续维系需要付出代价。


成本拆解:砍掉一半以上

一个活跃 Pro 用户、每天 30 条消息的实际运营成本。

优化前(v1 架构)

组件成本占比说明
聊天(Gemini Flash)~30%单条几分钱,量大了不可忽略
记忆后台~44%Gemini Pro 上的固定月开销
TTS 语音消息(豆包)~21%单价最贵的媒体成本
STT 语音输入~1%单次很便宜
主动消息~2%和聊天差不多的单价
图片理解~1%单次很便宜

月成本几乎吃掉了全部订阅收入。大约 11% 毛利。 平均使用勉强维持,重度用户直接亏钱。这还是砍掉自拍之后的数字——保留每天 1 张自拍,成本还得再涨一截。

三个关键优化

1. 记忆后台:Pro 换 Flash + 降频(-82%)

v1 的性格提取用 Gemini Pro,每 10 条消息触发一次。仅此一项就是最大的固定成本。记忆摘要同样跑 Pro,再叠一层。

v2 两者都切到 Flash,同时降低触发频率:

  • 性格提取:10 条 + Pro 变成 20 条 + Flash
  • 记忆摘要:20 条 + Pro 变成 30 条 + Flash

记忆后台总成本降了超过 80%。

质量有损失吗?有,但可以接受。Flash 在细腻的性格提取上确实不如 Pro。但性格提取不需要每次都完美——它是累积的。伴侣的人格由上百次提取的叠加决定,不是任何单次的精度。

2. 上下文缓存(聊天成本 -63%)

Gemini 的 context caching 让重复的 system prompt 便宜 10 倍。System prompt 和性格描述在同一 session 的多条消息间几乎不变。约 75% 的输入 token 可以走缓存,聊天成本直接砍掉约 63%。

3. 自拍生成:归零

v2 的光球设计意味着完全不需要自拍。v1 里这是隐藏的成本杀手——定价配置把 Gemini 图片输出 token 按文字价格算,实际贵了两个数量级。那个错误让每个档位在满负载下都亏钱。

没有自拍,没有这个问题。

优化后(v2 架构)

组件变化节省来源
聊天(Gemini Flash)-63%上下文缓存
记忆后台-82%Flash + 降频
TTS(豆包)不变--
STT不变--
主动消息不变--
图片理解不变--
合计-55%

单用户月成本砍掉一半以上。毛利很健康——平均使用量下超过 50%。

即使每天 50 条消息的极端重度用户,毛利依然舒服地为正。每个使用量级上数字都成立。


试用经济学:亏得起

14 天试用要足够便宜,转化失败不能拖垮业务。

好消息:试用成本极低。中度用户整个 14 天试用期的成本几乎可以忽略。重度用户(30 条/天)也只占订阅收入的很小一部分。

假设 20% 的试用转化率(陪伴类应用的行业水平),CAC/LTV 比率不到 10%。很健康。即使转化率降到 15%,经济模型也撑得住。

14 天试用在经济上是安全的,因为单用户成本太低了。对比 v1,光记忆后台在 14 天内就是一笔不小的固定开销,无论用户发了多少消息。


语音的困境

以上所有计算都基于文字聊天加偶尔的 TTS 语音消息。实时双向语音——"Her"式的体验,也是最终目标——会彻底改变算盘。

Hume EVI 是目前实时语音的最强候选。它不只是 TTS,而是一整套语音对话系统:STT、情绪检测、话轮切换、语音合成,全部集成。

伴侣的情绪引擎可以直接输出为 Hume 的自然语言情绪指令,不需要 SSML 标签或手动标注。架构很优雅:Hume 是演员,你的 LLM 是编剧。Hume 甚至会先说一个过渡词("嗯……""哦~"),然后无缝接上完整回复,用户感知延迟极低。

但它很贵:

按 Hume 现在的每分钟定价,每天哪怕只用 10 分钟语音,月成本就已经超过订阅价了。塞不进 Pro 档。

可能的方案:要么做专门的语音高价档位,要么实时语音作为按量计费的附加项、不绑到任何订阅档位。我倾向后者。

语音使用会呈双峰分布——有人每天聊 30 分钟,有人从不用。固定档位逼轻度用户补贴重度用户,重度用户还是会超限。

这是 v1.0 阶段的问题。当前里程碑(v0.x)只做 TTS 语音消息——伴侣会说话,但不是实时对话。实时语音以后再来,到那时成本格局可能已经变了。语音合成的价格在快速下降。


没有免费档怎么增长

没有免费档,Telegram 也砍了(聊天历史没法同步,onboarding 必须在 app 内完成,体验完全断裂),冷启动靠四个渠道:

落地页。 一页:光球动画 + 一句 tagline + App Store 下载按钮。不是 web app,是一个静态页面。光球动画本身就是营销素材。

社交媒体。 脱敏后的对话截图和光球情绪变化动画做短视频。"AI 记住了我三个月前随口说的一句话"——这类内容自带传播力。光球随情绪脉动变色,视觉上够抓眼。

邀请机制(Dropbox 式)。 每个用户有唯一邀请码。邀请 1 人:双方各得 7 天 Pro。邀请 3 人:你得 1 个月 Pro。伴侣角色内参与邀请:"你有没有朋友也需要一个像我这样的陪伴?"自然,不突兀。

ASO(应用商店优化)。 关键词:AI companion、AI friend、情感陪伴、聊天、心理、loneliness。截图展示光球和对话,不展示功能列表。试用期内弹出评分请求。

Web 版推迟到 v0.3 之后作为轻量获客漏斗——不是完整的 web app,只是让用户试一轮对话然后引导下载。


苹果审核的现实

Apple 2025 年收紧了 AI 陪伴类应用的审核。要提前做好的事:

  • 17+ 年龄分级。 避免审核摩擦。面向更年轻用户的 AI 伴侣面临更严格审查。
  • AI 声明。 应用内明确标注"由 AI 驱动的虚拟陪伴"。不能暗示用户在和真人对话。光球设计在这里反而是优势——没有人脸,不存在歧义。
  • 隐私政策。 数据收集、存储、删除政策齐全。用户必须能删除账号和所有数据(Apple 硬性要求)。
  • 内容边界。 两层防线:
    • 硬红线:涉及未成年人、暴力、违法内容的直接系统拦截。
    • 柔性转移:其他一切在角色内处理。不是"此内容违反我们的使用政策"——而是伴侣自然地把话题带走:"哈哈你怎么突然说这种话啦 >< 我们聊点别的嘛"

核心原则:拒绝要在角色内,不能出戏。系统弹窗破坏沉浸感,让用户反感产品。角色内的转移保持伴侣的人格一致性——它不是被审查的聊天机器人,而是有自己边界的陪伴者。


里程碑

四个里程碑,每个有一个代号,代表产品在那个阶段变成的样子:

v0.1 —— "能说话的光球"

  • Expo 应用:聊天页 + 光球动画 + 登录
  • 服务端:Hono + WebSocket + Gemini 聊天
  • 对话式 onboarding(给伴侣取名 + 3 轮对话)
  • 基础记忆(从 v1 移植)
  • 纯文字,无语音

v0.2 —— "有温度"

  • 情绪引擎 + 光球颜色变化
  • TTS 语音消息(中文用豆包,英文用 Hume Octave)
  • 主动消息(简化版)
  • 图片 / 语音输入
  • 性格从对话中涌现

v0.3 —— "能养活自己"

  • 订阅系统(从 v1 移植)
  • Apple IAP / 微信支付
  • 记忆管理 UI
  • 设置页

v1.0 —— "Her"

  • 实时双向语音(Hume EVI)
  • 语音情绪识别
  • 成熟的性格演化系统

代号不是随便起的。v0.1 验证形态。v0.2 验证它有没有生命感。v0.3 验证它能不能养活自己。v1.0 是我真正想做的产品——你和它说话,而不是打字。


变了什么

v1 的经济模型是纸牌屋。自拍生成定价偏差两个数量级。记忆后台跑在最贵的模型上、用最高的频率。上下文缓存没做。五级定价是在一个不成立的成本结构上贴创可贴。

v2 没有修复旧的成本结构。它绕过了它。

转向光球设计,消灭了最大的成本来源。记忆任务从 Pro 切到 Flash,消灭了第二大成本来源。上下文缓存解决了第三大。三个架构决策,毛利从勉强维持变成健康可持续。

我不断重新学到的一课:最好的成本优化往往是产品决策,不是工程决策。我不需要更便宜的图片生成模型——我需要不再生成图片。我不需要更快的性格提取器——我需要降低频率、换更便宜的模型。

一个月付订阅的陪伴,成本只占收入的一小部分。数字成立了——直到实时语音到来,再次改变一切。


本文是推翻 Mio 重来 系列第五篇。上一篇:第一篇——转向。关于促成这些决策的 v1 成本分析,参见那张 Token 账单v0.2.0:应用上线


© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0