Zoom 自带的 AI 太烂,我把开源会议录音工具翻了个遍
前两天有朋友问我,有没有什么好用的会议录音工具。
他用 Zoom 和 Teams,但原生的 AI 总结烂得没法看,全是格式化空话。Granola 和 Krisp 都用过,体验确实顺,但都要订阅,免费 tier 几场会就用完了。他公司是 Google Workspace,但平时不开 Gmeet——所以 Gemini for Workspace 自带的那套也吃不上,那玩意基本绑死在 Meet 上。
我跟他讲,这事儿原理简单到离谱。抓 Mac 的系统音频,再抓麦克风的输入,两路喂给一个 STT 模型转文字,再扔给某个 LLM 做总结。三步。每一步现在都是 commodity,开源生态全有。
「GitHub 上肯定有人做过」,我说。
后来我翻了一晚上,发现的何止「有人做过」。整整一个星座的项目,从 11.6k 星的 Meetily 到三五个 star 的个人玩具,全在做同一件事,一字不差地,抢同一块饼。
这一篇就把这一晚上的调研摊开来。谁是真能用,谁是玩具,谁适合哪种用户,一次讲清楚。
Granola 们体验确实好,但订阅费是在卖摩擦力
Granola 和 Krisp 这一类产品,体验是真好。
打开就用,不装 BlackHole,不配多输出设备,不记任何快捷键。Granola 那个「边开会边记笔记,AI 在后台默默升级你的笔记」的产品形态,是过去两年我见过最聪明的会议笔记设计之一。
但价格摆在那儿。Granola 商用版本 $18/月起,Krisp $16/月,Otter $20/月,Fireflies 第二档 $19/月。一年人均接近 $200。三五人小团队,光会议笔记一年就要烧掉几千美金。
更要命的是数据归属。你的每一场客户会、每一个产品 brainstorm、每一段战略讨论,全打到他们的服务器上做转写和总结。哪怕他们 SOC 2 合规,合同里写明「不用你的数据训模型」,你的对话已经离开你的机器了。
朋友的诉求是非常典型的。
免费 tier 不够,付费又觉得这事儿不值这个钱。公司用 Gsuite 和 Notion AI,再加一个会议工具的订阅是真的多余。Zoom/Teams 已经是日常 launcher,他不想再插一个 bot 进会议、再走一道云端 API。
「能不能就在我自己的 Mac 上跑,本地转写本地总结,结果落在我自己的笔记里。」
这就是开源派的全部立场。
拆开看,会议录音就是三块积木
技术上看,会议录音转写就三块积木。
第一块抓音频。Mac 这边有两条路。装一个 BlackHole 之类的虚拟声卡,把系统音频路由进来,这是老办法。或者直接用 Apple 自家的 ScreenCaptureKit,再新一点的项目用 CATapDescription(macOS 14.2+ 自带),完全不需要装驱动。后者更优雅,但要新版 macOS。
第二块 STT。开源主流是三条线。OpenAI 的 Whisper(whisper.cpp 和 WhisperKit 是它的 Mac 友好版本),NVIDIA 的 Parakeet(更快但语言覆盖少一些),还有阿里的 Qwen3-ASR。这三个跑在 Apple Neural Engine 上速度都飞快,识别率在干净音频下接近商用。
第三块 LLM 总结。本地跑 Ollama + llama 系列就行,要更好质量就 BYOK 接 Claude/GPT/Gemini 的 API。
锦上添花的是 speaker diarization——区分谁说的哪句话。这块开源的 FluidAudio 已经做得相当不错,能跨会议记住声纹。
三块积木拼起来就是一整个产品。每一块都是 commodity,每一块都有现成的开源实现。所以 GitHub 上能长出八个项目同时做这件事,逻辑上完全成立。
从手搓玩具到准产品级,八个项目逐个看
按「完成度从低到高」的顺序看,比按 stars 排名更有信息量。
Notes4Me(8 stars,Electron)。
这个最像「教科书示范」。Electron 套壳 + 必装 BlackHole 2ch + whisper.cpp 跑英文 base 模型 + Ollama 跑 llama3.2 总结。整个 stack 摊开来全是手搓零件,没有任何抽象封装。
它的 README 老老实实写了「macOS 不让 app 直接抓系统音频,所以你必须装 BlackHole,然后去 Audio MIDI Setup 里建一个 Multi-Output Device」——这套配置流程对任何不懂音频的人来说都是一道劝退门槛。
但它的好处也在这儿。如果你想自己学一遍这套管道怎么搭,Notes4Me 的代码就是最干净的模板。装一遍 BlackHole 就懂了为什么主流产品都在卷 ScreenCaptureKit。
不能录麦克风(只录系统输出)、不支持 diarization、不能实时转写。是一个「能跑通的最小闭环」,不是产品。
Parrot(3 stars,SwiftUI)。
Notes4Me 的 Mac 原生升级版。SwiftUI + WhisperKit + ScreenCaptureKit + AVAudioEngine。系统音频和麦克风同时录,不用 BlackHole。
作者自己写的注释是「embarrassingly basic」——diarization 靠静音间隔切片,假设说话人交替。两人对话还行,三人会议直接崩。
干净的个人项目,不要当产品用。
Oatmeal(3 stars,Swift only)。
这个有意思。它升级到 Parakeet-TDT 0.6b 跑 Apple Neural Engine,比 Whisper 快一个量级;FluidAudio 做声纹聚类;OpenRouter 接 GPT-4o/Claude/Gemini 做总结。技术栈是当下最 Mac-native 的搭配。
劣势是只支持 macOS 14+ 且 Apple Silicon,Intel Mac 直接用不了。stars 才 3 个,但代码质量已经接近「可日用」。
适合愿意自己 build 一遍 Xcode 项目的早期玩家。
Recap(703 stars,Swift)。
Recap 一度是这个赛道最被看好的项目之一。MIT 协议,纯 Swift,自动检测 Teams/Zoom/Meet 启动,用 Mac 原生 Core Audio taps(不需要 BlackHole)抓系统音频,本地跑 WhisperKit。
但作者在 README 里写了一句让人警惕的话——「broken in current state, do not use in production」。最后一次 release 是 v0.0.3(2025 年 8 月)。
想法对、架构对,但实现还不稳定。作者自己在用,但不推荐别人用。这种状态在开源里很常见——idea 已经验证过了,但作者没空打磨成成品。
要不要试,取决于你能不能容忍偶发崩溃。
pasrom/meeting-transcriber(19 stars,Swift)。
我个人在「真能跑」这一档里最看好的。
亮点全在选项上。STT 引擎给你三个选——WhisperKit 覆盖 99 种语言(约 1GB),Parakeet TDT v3 覆盖 25 种欧洲语言(仅 50MB,飞快),Qwen3-ASR 覆盖 30 种语言含中文(1.75GB)。三档随便切。
音频抓取走 macOS 14.2+ 的 CATapDescription,不需要 BlackHole。Diarization 用 FluidAudio 跑 Apple Neural Engine,能跨会议匹配声纹(比靠 HuggingFace token 的方案干净)。
总结这步它走 Claude Code CLI 或 OpenAI 兼容 API(Ollama / LM Studio),所以接什么模型都行。输出是结构化 markdown protocol。
19 个 star 但代码量已经 760 commits,作者明显在认真维护。
如果你跟我一样——Mac 用户、Apple Silicon、想要原生体验、又想要中英混合识别——这是当下最对路的。
OpenWhispr(3,000+ stars,Electron + React)。
这个有点不太一样。它把「全局快捷键听写」和「会议转录」融到了同一个产品里——所以你日常用它替代 macOS 自带的 Dictation 也行,开会也行。
技术栈是 Electron + Whisper + Parakeet + better-sqlite3 + sherpa-onnx。本地说话人指纹识别能跨会议记住人,这点比纯单会议 diarization 实用得多。还自带 MCP server,等于把会议笔记接到了 agent 工作流里——你可以让 Claude Code 直接读会议历史。
跨平台(mac/win/linux),76 个 release,1365 commits。看起来在认真做产品。
劣势是 Electron。内存占用、启动速度都不如纯 Swift 项目。
Anarlog(8.4k stars,Rust + Tauri)。
Anarlog 之前叫 Hyprnote,开发团队现在主要在做新产品 char。Anarlog 仍然 MIT 维护,但主战场已经迁走。这个状态有点尴尬。
但它仍然是当前最像 Granola 的开源替代。Rust + Tauri 跨平台,本地转写,markdown 落盘,BYO LLM——OpenAI/Anthropic/Gemini/OpenRouter/Ollama/LM Studio 全支持。
如果你的诉求是「Granola 那种产品体验,但我自己控数据」,Anarlog 当下还是头号选项。
Meetily(11.6k stars,Rust + Tauri)。
赛道里最像产品的开源项目。
Rust + TypeScript + Tauri + GPU 加速(Mac 走 Metal,Windows 走 CUDA/Vulkan)。Parakeet/Whisper 双引擎,号称比 Whisper 单引擎快 4 倍。LLM 总结接 Ollama/Claude/Groq/OpenRouter/任意 OpenAI 兼容 endpoint。可以导入已有音频文件重新转写。
社区版 MIT 永久免费。Pro 版收费,主打更高精度、自定义模板、GDPR 合规、speaker ID(这个还没上)和日历集成。
147 个 open issue 说明用户多但坑也多。社区活跃,3 月刚发了 v0.3.0,还在加速演进。
如果你只想「装一个就能用」、不打算自己折腾 Xcode 或 BlackHole,Meetily 当下是最稳的选择。
按你的诉求挑这一个
讲完八个,按你想干嘛挑:
| 你的诉求 | 选哪个 |
|---|---|
| 产品级体验,开箱能用 | Meetily —— 社区版够用,Pro 版按需上 |
| Granola 那种边开会边记笔记的产品形态 | Anarlog(旧名 Hyprnote)—— 注意团队精力转移了 |
| Mac 原生党,不接受 Electron | pasrom/meeting-transcriber —— 三引擎可选,Apple Silicon 上最对路 |
| 全本地、不连任何云 | 任意都行,Notes4Me 最纯粹(whisper.cpp + Ollama) |
| 中英混合识别 | pasrom/meeting-transcriber 选 Qwen3-ASR 引擎 |
| 日常听写 + 会议转录融合 | OpenWhispr |
| 想自己手搓学原理 | Notes4Me 看架构 → Parrot 看 ScreenCaptureKit → Oatmeal 看 Parakeet+FluidAudio |
| 喜欢踩早期项目 | Recap 或 Oatmeal——准备好接受 bug |
我自己最后留了两个:pasrom/meeting-transcriber 用来日常英文/中文会议(Apple Silicon Mac,Qwen3-ASR 中文识别比 Whisper 强一档),Meetily 用作「一键能用」的备份方案。
闭源 SaaS 在这件事上的窗口期,可能比想象的更短
回到开头那句——这事儿原理简单到离谱。
Transcribe + 总结这两块功能,没有任何技术壁垒。模型开源(Whisper/Parakeet),LLM 开源(Ollama/llama),系统 API 开源(ScreenCaptureKit),diarization 库开源(FluidAudio)。Granola 和 Krisp 这些 SaaS 卖的不是技术,是 packaging——是「我替你装好了 BlackHole」「我替你配好了 Multi-Output Device」「我替你买好了 STT credits」。
订阅费的真相是摩擦力费。
而摩擦力,恰恰是开源最擅长抹平的东西。Meetily 一个 installer 就把整套 stack 装完了,跟你装 Slack 没差别。pasrom/meeting-transcriber 一个 Xcode build 就能跑起来。Notes4Me 五分钟读完 README 就懂了整条管道。
软件的命运就是这样。原理简单 + 强需求的功能,永远会被开源吃掉,最后退化成 OS 的一个 feature——就像 Mac 自带的 Voice Memos,就像 Notes 的录音转写。
闭源 SaaS 在这件事上的窗口期,可能比想象的还要短。
上一篇 《别买录音笔了,你的 Apple Watch 就够了》 讲的是录我自己一个人的声音,半小时手搓搞定。这一篇讲的是录一群人开会,开源世界已经替我们把活儿干完了,剩下的就是挑一个装上。
录会议这件事,本来就该是这样的。