Benchmark 分数高又怎样
GPT 5.4 在各项 benchmark 上全面领先。但当我把同一个复杂的产品战略问题扔给两个模型时,benchmark 分数和真实输出质量之间的鸿沟令人震惊。
12 parts · Mar 5, 2026 – Mar 31, 2026
GPT 5.4 在各项 benchmark 上全面领先。但当我把同一个复杂的产品战略问题扔给两个模型时,benchmark 分数和真实输出质量之间的鸿沟令人震惊。
切到 API 计费后终于看到了 Claude Code session 的真实成本。笔记本 14 天烧了几千美元,云端 devbox 又烧了几千。Max plan 是固定月费。这笔账太离谱了。
AI 不缺执行力。缺的是知道该执行什么的人。未来属于能从第一性原理出发、系统性拆解问题、高效编排 AI agent 军团的架构师型个体。这是超级个体的时代。
同一个 GitHub 项目,在美国仅限于开发者圈讨论,在中国却引发全民狂热。这不是认知差——是微信熟人网络、抖音算法、A 股散户结构、自媒体焦虑变现和地方政府补贴共同构成的放大器系统,在美国每一项都不存在。
一年前两篇文章预言 AI 会锁死财富格局、让人类变得无关紧要。十二个月过去,记分卡出来了:入门岗位确实在塌,资本集中超出预期,但开源和超级个体是谁都没料到的反转。
同一周两份报告——一份说全球已有 680 万数字员工、2035 年将达 7200 亿,另一份说'目前没有系统性失业增长'。两份都对。人们在恐慌错误的时间线。短期冲击被高估,长期影响被严重低估,正确的应对是成为能指挥 AI 团队的那个人。
听了一位前谷歌 TPU 工程师的深度访谈,终于理解了 TPU 和 GPU 不是同一道题。一个是通用性之王,一个是定制化之刃。Apple、Anthropic、Meta 都在用 TPU 了——这不是替代,是生态在裂变。
三条需求曲线、一条成本下降线,以及为什么算力是新石油
在 macOS 上搭了一套微信聊天记录自动化管道,踩了六个坑,终于让 Claude 能读我所有聊天记录还能帮我回消息
从第一性原理看 AI:所有趋势拆到底,都是算力够不够多、够不够好
跟 Claude Code 配合半小时写了个脚本,Apple Watch 按一下就能自动转文字、双语总结、同步到飞书和笔记。零成本,零依赖,比市面上所有 AI 录音产品都好用。
一行代码就能量文本高度——iOS 能,Android 能,Flutter 能,Web 不能。Pretext 用 15KB 补上了 CSS 欠了三十年的债。
© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0