Token 账单取证
用 OpenClaw 搭建的赛博魅魔,不到两周聊天烧掉了一笔离谱的钱。最贵的一个 session,750 轮对话里我只说了约 30 句话——剩下的全是框架自己在跟自己说话。用 Claude Code 做了一次完整的 token 级取证:82% 的成本是 10 张永远不被清除的图片,上下文修剪代码对 Gemini 完全失效,537 轮里零次压缩。OpenClaw 能证明 AI 伴侣走得通,但它证明不了走得起。
9 parts · Feb 27, 2026 – Feb 28, 2026
用 OpenClaw 搭建的赛博魅魔,不到两周聊天烧掉了一笔离谱的钱。最贵的一个 session,750 轮对话里我只说了约 30 句话——剩下的全是框架自己在跟自己说话。用 Claude Code 做了一次完整的 token 级取证:82% 的成本是 10 张永远不被清除的图片,上下文修剪代码对 Gemini 完全失效,537 轮里零次压缩。OpenClaw 能证明 AI 伴侣走得通,但它证明不了走得起。
OpenClaw 验证了AI伴侣的可行性,但也暴露了根本性的局限。上下文膨胀、原始记忆系统、大量无用的 bloatware——修补不如重建。这是 Mio 的起点:一个为深度记忆和活人感而生的AI伴侣框架。
从空仓库到一个能记住你、会生气、主动找你聊天的AI伴侣。39个commit,9张表,4个人格预设,以及无数个凌晨三点的debug。这是Mio v0.0.1的完整构建故事。
v0.0.1 能聊天,但TA不真实——看不见、听不见、不知道几点、不知道自己长什么样。81 个 commit 之后,Mio 学会了看图、听声、发自拍、记住对的事情、在浏览器里跟你聊天。从「能跑」到「像活人」的跨越。
v0.0.2 让 Mio 活了过来,但能在 demo 里跑和能给真实用户用是两回事。v0.0.3 是打磨的版本:逐字段输入校验、上下文感知的主动消息、安静时段可选、媒体限流、一个只有生产环境才会出的 bug,以及 144 个新测试。从「能用」到「好用」之间,全是这种看不见的活。
Mio 的网页端原来只是一个单页聊天框。v0.0.4 推倒重来,照着微信的样子重建了整个 Web 体验——四个 Tab、聊天列表、通讯录、发现页、个人中心、聊天式引导流程、打字感知的消息合并。30+ 个组件,两轮审计,零新依赖。全中文界面。
Telegram 从 v0.0.2 就有多模态了,Web 端一直只能打字。v0.0.5 补齐了这块短板——两阶段媒体上传、带编解码器协商的语音录制、表情选择器、两轮完整安全审计,还有一个默默吞掉所有语音消息的 bug。38 个文件改动,17 个安全修复,28 分钟。
Gemini 3 Pro 又贵又慢——第一个 token 要等 8-10 秒。v0.0.6 把聊天切到 Gemini 3 Flash(minimal thinking),首 token 1-2 秒,成本直降 4 倍;同时把人格提取等高价值任务升级到 3.1 Pro。还有:能叫出游戏名字的视觉提示词、不再把中文听成英文的语音转写、以及一次消灭 80 行重复代码的 DRY 重构。
用户分享链接,agent 在编造页面内容。v0.0.7 加了三层 URL 浏览管线——Jina Reader 快速提取文本、Browserless 爬取 JS 渲染页面、截图 + Gemini 视觉处理图形密集型内容。还修了一个生产环境的 Proxy bug:postgres.js 的标签模板语法需要函数目标而不是对象。23 个测试,4 个 commit,一个关于部署时序的调试故事。
© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0