别买录音笔了,你的 Apple Watch 就够了
你有没有见过这种东西——一个小卡片或胸针大小的 AI 录音设备,号称"随时录音、自动转写、AI 总结"。
市面上这类产品不少,价格也都不便宜:
| 产品 | 硬件价格 | 订阅费用 | 一年总花费 |
|---|---|---|---|
| Plaud Note(大陆版) | ¥1,149 | ¥339-1,099/年 | ¥1,488-2,248 |
| 钉钉 A1 旗舰版 | ¥799 | ¥599-1,499/年 | ¥1,398-2,298 |
| 出门问问 TicNote | ¥999 | ¥578-1,188/年 | ¥1,577-2,187 |
| 讯飞 AI 录音笔 Magic | ¥899 | 按次 ¥0.3/分钟 | ¥899+ |
| 飞书妙记 | 免费 | ¥10/月(超出部分) | ¥120+ |
套路差不多:硬件几百到一千多,转写服务按月或按年收费。
三个问题:
第一,又多一个设备。 出门已经够多东西了——手机、钥匙、钱包。再加一个录音笔?大概率第三天就忘带了。
第二,数据不在你手里。 你的每段对话、每场会议、每个私密想法,全部上传到别人的服务器做转写。隐私?不存在的。
第三,不付费就很手动。 Plaud 不付月费也能用,支持导出音频。但那个流程:录完 → 打开 app → 导出 → 传到电脑 → 找转写工具 → 粘贴 → 再找 AI 总结。每次手动操作一遍,能坚持一周的人我都佩服。
然后我看了一眼手腕上的 Apple Watch。
按了一下 Action Button,录音开始了。吃完饭,手机叮一声,整段对话已经自动变成了文字——中英双语总结、要点提取、行动项,直接推送到 Apple 备忘录、飞书,或者任何你想要的地方。不用打开电脑,不用手动操作。音频始终在你自己的机器上,不经过任何第三方。你的数据,从头到尾都是你的。
起因是一个朋友踩过的坑
我不是第一个想到用 Apple Watch 录音的人。
一个朋友比我更早动手,直接写了一个 watchOS 自定义录音 app。从 Watch 上录音,传到服务器,自动转写。听起来很合理。
但他搞了两周,几乎放弃了。
问题不在录音——Apple Watch 的麦克风质量完全够用。问题在后面的管道。
watchOS 的网络连接极不稳定。手表为了省电,系统会随时掐断网络。你以为在传文件,其实连接早断了,数据还在手表里躺着。
他试过 CloudKit 做中间层。结果链路变成了:Watch → CloudKit → 服务器 → 转写 → 回传。四跳。任何一跳出问题,整条管道就卡住。
更离谱的是,watchOS 录音有 30 秒分片限制。一段 10 分钟的对话,变成 20 个文件。20 个文件往 CloudKit 上传,同步机制直接崩了——文件丢失、乱序、重复,什么都有。
他跟我说了一句话,我印象很深:
"录音没问题,自动化工作流?我还没找到好办法。"
但你想想——为什么要做 app?
我听完他的经历,第一反应不是"怎么解决这些问题",而是"为什么要做这个 app"。
Apple Watch 上有一个叫 Voice Memos 的东西。系统自带。按一下开始录,再按一下停止。
录完之后呢?iCloud 自动同步到 Mac。
不用 CloudKit 中间层。不用自己写网络代码。不用处理 30 秒分片。
我在手表上录了一段,走到电脑前,打开 Finder——文件已经在那了。几秒钟同步完毕。
朋友花两周踩的所有坑,一个系统自带的 app 就绕过去了。
最好的代码是你不需要写的代码。
一个 API 调用搞定一切
文件同步到 Mac 之后,下一步是转写。
传统方案是两步走:先调一个 STT(语音转文字)API 把音频变成文本,再把文本丢给 LLM 做总结。两次 API 调用,中间还得处理格式转换。
但 Gemini 3 Flash 是多模态的。
直接把 .m4a 音频文件丢给它,一个调用,出来的东西包括:
- 完整逐字转录
- 中英双语总结
- 关键要点
- 行动项列表
一步到位。不需要中间格式,不需要两套 API,不需要处理 STT 的输出格式跟 LLM 的输入格式之间的适配。
多模态 API 从根本上改变了管道设计思路。以前是"先转格式再处理",现在是"原始数据直接进、结构化结果直接出"。
文件来了就自动跑
Mac 上有个东西叫 launchd。2005 年就有了。macOS 的系统级任务调度器。
它有一个功能叫 WatchPaths——你告诉它监听某个目录,目录里有新文件出现,它就自动执行你指定的脚本。
iCloud 同步的 Voice Memos 落在一个固定路径下。launchd 盯着这个路径。新录音一出现,转写脚本自动触发。
不用轮询。不用 cron。不用写一个后台进程。操作系统级的文件监听,稳了二十年,不会因为 macOS 升级就挂掉。
用平台原语,永远比自己造轮子靠谱。
Agent 帮你投递到任何地方
转写完了,结果要放到哪里?
Apple Notes?Obsidian?飞书?全都要?
我写了一个 delivery 模块,核心就一行:调用 claude -p,把转写结果交给 Claude Code。Claude Code 有各种 skill——写笔记、发飞书、存 Obsidian,什么都行。
投递目标不是写死的。改一个环境变量就换。今天存 Apple Notes,明天你想同步到飞书,改一行配置。
可插拔设计多花了我 10 分钟。但后面每加一个投递目标,我都不用碰代码。
这就是 Agent 委派的威力:你不需要给每个下游系统写集成代码。你只需要把任务描述清楚,Agent 自己知道怎么干。
半小时,从零到能用
整个项目从第一行代码到完全跑通,半小时。跟 Claude Code 结对编程,我说思路,它写代码。
10 次 commit,12 个文件,大概 850 行代码。零外部依赖——不需要装任何第三方库。
分解一下这半小时都在干嘛:
用系统自带的 Voice Memos 省掉了 watchOS app 的开发。用 iCloud 同步省掉了文件传输管道。用 Gemini 多模态省掉了 STT + LLM 两步调用。用 launchd WatchPaths 省掉了后台监听服务。用 Claude Code 委派省掉了各个下游系统的集成代码。
每一步的思路都是一样的:别造轮子,找到已经转了二十年的那个轮子,站上去。
跟做过的人聊一聊,能省几周弯路。要不是朋友先替我踩了 watchOS 自定义 app 的坑,我可能也会走那条路,然后花两周发现走不通。
录音这件事,本该这么简单
市面上那些"AI 录音笔",本质上是在卖一个你手上已经有的东西。
硬件?Apple Watch 的麦克风比大多数录音笔好。同步?iCloud 比任何自建方案稳定。转写?Gemini 3 Flash 一个调用搞定。投递?Claude Code 想发哪儿发哪儿。
整条链路:按一下 Action Button → 录音 → iCloud 同步到 Mac → launchd 检测新文件 → Gemini 转写 → Agent 投递到笔记 / 飞书 / 任何地方。
零硬件成本,零月费,零依赖。
代码开源了:watch-transcriber。
**最好的产品不是功能最多的,是让你忘记它存在的。**按一下表冠,剩下的事情全自动。录音这件事,本该如此。