攒了一年的 11 个 AI skill,开源了
事情是这样的。
上周末整理项目,我盯着 ~/.claude/skills/ 目录看了半天。。。
里面塞着 16 个 skill。写中文长文的、做调研的、生成图片的、PDF 文本提取的、整理项目记忆的,甚至还有一个赛博半仙占卜的。每一个都是过去一年多里,我嫌弃自己反复写同样的 prompt,然后顺手就给包成了 skill。
我突然意识到,这他妈不就是我和 AI 协作干活的一整套套路吗。
于是开了个 GitHub repo 叫 AX-skills,挑了 11 个我觉得别人也能用的,开源了。
仓库在这,github.com/xingfanxia/AX-skills。本文剩下的,是我自己回头看 11 个 skill 之后想到的一些事。
skill 不是存 prompt,是把工作流写下来
最早我以为 skill 就是「把好用的 prompt 存起来方便复用」,类似于 Notion 模板那种思路。
但真做了一段时间之后,我发现 skill 干的是更深的一件事。
它不是存 prompt。它是把脑子里那个模糊的「我大概知道这事儿应该这么干」明确成一份 AI 能跑的流程。
举个具体的,khazix-writer 这个 skill。它做的事看起来很简单,教 AI 用「数字生命卡兹克」公众号那种风格写中文长文。
但它内部跑的不是「来一段 prompt 然后让 AI 自由发挥」。是一套 4 层自检体系。
L1 是硬性规则。禁用词扫描(「说白了」「意味着」「本质上」「换句话说」这种 AI 一写就暴露的词),禁用标点扫描(不能出现冒号、破折号、双引号),结构性套话扫描,工具名空泛检查。 L2 是风格一致性。开头是不是从具体场景切入,节奏有没有长短交替,口语化词组够不够多。 L3 是内容质量。观点有没有具体支撑,知识是不是「聊着聊着顺手掏出来」的,有没有从具体事件升维到更大的文化参照物。 L4 最关键,活人感终审。整体读完,是不是像一个有见识的普通人在认真聊一件打动他的事,而不是 AI 在输出信息。
写完一段,AI 拿这 4 层去过自己。L1 不过就改词,L2 不过就改节奏,L3 不过就补案例,L4 不过就重写一段。
这套流程我以前是脑子里走的。每次回头改自己的草稿,下意识就会问「这段太书面了」「这段没有钩子」,但我从来没把它写下来过。
写成 skill 之后,让 Claude 帮我写公众号草稿,能跑这 4 层自检。我比之前少了 70% 的修改时间。
11 个 skill 都是干啥的
我们来过一下。
写作类两个。
khazix-writer 上面讲过,写中文公众号长文,强口语 + 活人感 + 自嘲。 wandian-writer 是另一种声音,写得像晚点 LatePost 那种深度分析,冷叙述、热判断、数据先行。两个 skill 互斥,不能在同一篇文章里混用,因为读者会精神分裂。
调研类两个。
deep-research 是验证型调研。用 Tier 1-4 信源分级(Tier 1 是厂商官方文档,Tier 4 是 GitHub issues 和 production post-mortems),多个 sub-agent 并行调研,互相交叉验证。最后产出一份决策备忘录,每个核心 claim 都得有 Tier 3-4 的独立证据,不能只靠 vendor 的市场叙事。 narrative-research 是叙事型调研,做来龙去脉。用横纵分析法(Horizontal-Vertical Analysis),纵轴讲一个东西的生命周期叙事,横轴是同时期的竞争横切面,两轴交叉之后产出洞察。这个方法是数字生命卡兹克提出的,我做了一个 Western 信源版本。
媒体生成类四个。
gpt-image 是默认图片生成,用 GPT Image 2。能塞文字(比 Nano Banana 强),单 prompt 多图(同一 prompt 跑 N 张),适合大部分场景。 gemini-image 是 Gemini Nano Banana。illustration 类(动漫、水彩、吉卜力、Chiikawa)的画风更稳,而且支持多张参考图(最多 14 张),可以做 character consistency、pose 调整、背景替换这种多 ref 编辑。 transcribe 是音频转写,跑 Gemini 3 Flash 引擎,能处理我开会和讨论的录音。 apple-pdf 调 macOS 自带的 PDFKit framework 做 PDF 文本提取,比开源那些 PDF parser 强很多。
工作流类目前公开的就一个,neat-freak。会话末的知识库整理。每次干完活,它去同步三个层的文档,agent 的记忆系统、项目根的 CLAUDE.md、还有 docs/ 里给别人看的接入指南。三个层的受众不一样,文档不能只改一个就完事。这个 skill 我用得最频繁,几乎每个会话末都跑一次。
最后玩耍类两个。
banxian-skill 是赛博半仙占卜,把小六壬、梅花易数、六爻三种东方占卜算法包成了一个 AI 半仙人设。算法和知识库都来自 panpanmao 玄学平台真实业务代码,三套算法移植成 ≤500 行 Python,64 卦完整数据 + 纳甲 + 六亲 + 世应都有。半仙人设是 70% 玄学 + 25% 当代穿插(KPI / 房贷 / 相亲都接得住)+ 5% 专业骨气(守「一事一占」「医不问卦」)。这个 skill 之前写过专门的文章。 jewelry-marketing 给小型珠宝品牌做营销文案,朋友的副业项目让我做的。
过这一遍我自己都吓一跳。原来一个个写出来,不知不觉攒了这么多。
写 skill 这件事真正给我的回报
不是「省时间」三个字能概括的。
它逼着我把很多以前模模糊糊的东西明确化。
之前我用 AI 干活,「知道」自己想要什么风格,但说不出来。「知道」一个调研做得到不到位,但讲不清楚标准。每次都是出来一稿,看一眼说「不太对」,再迭代两轮。
写 skill 的时候你必须把这些标准明确写出来。因为你要让 AI 在没有你的情况下,自己跑一遍流程,自检通过才输出给你。
这个过程很反直觉。你以为是在教 AI 怎么干活,写着写着会发现,你其实是在搞清楚自己到底是怎么干活的。
愚钝如我,做了一年多 skill 才意识到这件事。
写到这里得交代一下来源。khazix-writer、neat-freak、narrative-research 这三个 skill 的核心方法论来自 KKKKhazix/khazix-skills(数字生命卡兹克的开源 skill 集合,MIT),我做了一些适配(包装路径、跨平台 install convention、AX-skills 生态的 cross-reference)。这些 skill 的 README 里都标了 attribution,跑去看 canonical 版本得 follow upstream。banxian-skill 的算法和知识库来自 panpanmao 玄学平台的真实业务代码。gemini-image 的实现适配自 feedtailor 的 nanobanana skill,原作者的 MIT LICENSE 保留在 gemini-image/LICENSE-UPSTREAM-NANOBANANA。
我自己的版本和 upstream 的差别主要在两件事。
跨平台。我都跑过 Claude Code、Codex、OpenCode、OpenClaw 这四个 agent 平台,install convention 是统一的。 AX-skills 生态内部的 cross-reference。比如「什么场景用哪个 skill」的 routing 决策写在我的全局 CLAUDE.md 里,让多个 skill 之间能协同。
怎么用
很简单。
git clone https://github.com/xingfanxia/AX-skills.git ~/AX-skills
ln -sf ~/AX-skills/<skill-name> ~/.claude/skills/<skill-name>
每个 skill 自带 SKILL.md,Claude Code 会自动 pickup。需要 Python 依赖的(banxian-skill、gpt-image、gemini-image),看每个 skill README 里的 pip install 行。
最后
我之前看《禅与摩托车维修艺术》,里面有个让我印象很深的概念叫「Quality」。Pirsig 讲修摩托车的时候说,真正懂摩托车的人不是知道每个螺丝怎么拧,而是知道为什么这样拧、什么时候该停、什么时候该换工具。这个东西他叫「关心」(care),是无法用说明书表达的。
我做 AX-skills 这一年多,越来越觉得 skill 干的就是这件事。
每个 skill 都是我在某个工作流里反复折腾、反复试错、反复觉得「不对,这里得加这个判断」之后,沉淀下来的那份「关心」。把它写下来,AI 就能继承这份关心,然后我才能真正放手让它干活。
不写下来的话,每次都得我亲自盯着,那 AI 协作就是个伪命题。
仓库在这,github.com/xingfanxia/AX-skills。
欢迎 fork,提 issue,PR 都行。如果你也在折腾自己的 skill,给我看看,咱们交流一下。