ENZH

Benchmark 分数高又怎样

过去一年,我在 GPT 和 Claude 上烧了 30 亿+ token。95% 跑在 agentic coding 上——Claude Code 和 Codex,两把主力刀。

我不看排行榜。我看好不好使。

所以 GPT 5.4 发布当天横扫 benchmark,我的反应就一个:好的,那来跑个真题?

Benchmark 考的是标准化小题。我想知道的是另一件事:同一个真实的、混乱的、多维度的产品问题,两个模型的输出到底差多大?


实验怎么做的

Mio 的时候碰到一个关键抉择:继续走人设角色扮演(每个角色有背景故事、职业、作息),还是转通用 AI 陪伴?

这不是编程题。这是产品战略——要同时调动市场研究、竞品分析、心理学、产品设计和工程评估。

我在 Claude Code(Opus 4.6)和 Codex(GPT 5.4)里敲了一模一样的 prompt。中英混杂,开发者自言自语风格。很长,很乱——就是你真正在想一个难题时候的样子。没排版,没"请结构化回复"。

两个模型都能访问 Mio 代码库。默认设置。同一个问题,不同的大脑。


GPT 5.4 交的卷子

GPT 5.4 在 Codex 中的输出GPT 5.4 在 Codex 中的输出 GPT 5.4 在 Codex 中的回复——代码库感知能力强,市场研究偏浅

代码读得很准。引用了具体文件——docs/PRODUCT.md:25apps/mobile/app/onboarding/[presetId].tsx:442apps/server/src/api/chat.ts:482。知道东西在哪,引用没毛病。

大方向结论也对:"从'真人 roleplay'走到'AI-native companion'"。有一句产品定义还挺好的:"不是某个地方真实存在的人,而是一个明确为你而存在的 AI companion。"

它提了个框架——"low human realism + high emotional specificity"(低真人感 + 高情感特异性)。好用的速记。但紧接着就开始对冲:"我唯一保留的不确定性是......"

学术上很诚实。但我要的是决策支撑,不是保留意见。

整体大段文字为主。表格少,数字少,外部来源少。大约引用了 10 个来源。分析偏表面——代码读得好,但没有往深了做市场研究和心理学分析。

说白了,GPT 5.4 给了我一个好顾问的第一轮意见。


Opus 4.6 交的卷子

Opus 4.6 在 Claude Code 中的输出Opus 4.6 在 Claude Code 中的输出 Opus 4.6 在 Claude Code 中的回复——结构化研究,包含市场数据、心理学框架和详细产品规格

Opus 走了一条完全不同的路。它不只是回答问题——它自己跑去做了调研。

带数字的市场数据

直接甩了一张对比表:

指标Character.AI(人设模式)通用 AI 助手
次日留存50-60%~5%
日均使用时长1.5-2.7 小时分钟级
转化率~25%2-5%

具体数字。不是"人设类 app 留存通常更好"——是实打实的百分比。

这就是"你可以直接拿去决策"和"你还得自己去查"的区别。

Pi.ai 的前车之鉴

Opus 精准找到了 Pi.ai——我正在考虑的"去人设"方向的前例——然后告诉我它为什么凉了。

数据:对话质量正面评价比 ChatGPT 高 75%。但 Inflection AI 还是被微软收了,Pi 基本没了。

教训很扎心:没有人格 = 差异化不足 = 留存撑不住。我要是去掉 Mio 的人设,就是在 Pi.ai 已经证明"光有温暖不够"的市场里重蹈覆辙。

我没有要求竞品分析。Opus 自己跑去找的。

心理学框架

它列了学术研究中关于对 AI 产生情感依附的 5 个关键因素:

  1. 感知到的情感回应性——AI 好像"懂"你
  2. 无评判的陪伴可用性——随时在,从不批评
  3. 记忆与连续性——记得你们的对话和过往
  4. 自我披露的互惠性——也会分享关于"自己"的事
  5. 可预测性 + 温暖感——一致的人格,让人安心

这个列表里藏着一个关键洞察:以上五条,没有任何一条需要"她在成都工作,每天早上 9 点起床"。

不编造虚假身份,这五个因素一个不少。

最值钱的:正交维度拆解

整个输出里最值钱的东西来了。Opus 把决策重新框定了——不再是"要人设 vs 不要人设",而是两个独立维度:

  • 人格(沟通风格、情感模式、温暖感)——必须保留
  • 现实世界身份(职业、住址、作息、背景故事)——可以扔掉

这两个维度是正交的。你完全可以有一个人格鲜明、情感丰富的角色,同时不假装它是住在成都每天挤地铁的真人。

人设的问题不在人格——在于虚构的物理存在。

这个重新框定直接改变了我对 Mio 转型的思路。问题从"该不该保留人设"变成了"人设的哪些维度创造依附感,哪些制造违和感?"

可操作性完全不同。

还没完:详细产品规格

Opus 没停在战略层。它输出了具体 UI 布局、配色方案(黑/白/深灰)、情感到光球的映射系统、分版本路线图(v0 到 v2)、中国市场数据(星野 446 万月活),以及 15 个带 URL 的引用来源。

还做了代码复用分析:哪些模块能复用、哪些要改、哪些可以删。


差距在哪

先说清楚:GPT 5.4 不差。 方向判断正确,代码库读得准,产品直觉没问题。如果 Opus 不存在,我会对 GPT 的输出满意,然后继续干。

但放在一起看,差异是质的,不是量的。不是 Opus 好了 20%——是完全不同品类的输出。

维度GPT 5.4Opus 4.6
代码库感知强——引用具体文件和行号强——映射可复用模块
战略方向正确正确
市场数据浅——概括性陈述深——表格 + 具体指标
竞品分析提到了竞品找到精确前例(Pi.ai)及其失败模式
研究深度~10 个来源15+ 个来源带 URL
心理学支撑"情感特异性"(好直觉)5 因素学术框架
结构化思维段落文字表格、框架、正交分解
可操作性"你应该转型"具体 UI 规格、配色、路线图、模块映射
中国市场提到了具体数据(星野 446 万月活)

Benchmark 成绩单

先看看 benchmark 实际说了什么。GPT 5.4 今天发布,数字确实漂亮:

BenchmarkGPT 5.4Opus 4.6差值
OSWorld-Verified(桌面导航)75.0%72.7%+2.3
GDPval(知识工作)83.0%78.0%+5.0
GPQA Diamond(推理)94.4%91.3%+3.1
BigLaw Bench(法律)91.0%90.2%+0.8
Toolathlon(工具使用)54.6%44.8%+9.8
BrowseComp(网页浏览)82.7%
SWE-Bench Verified(编码)80.8%
ARC-AGI-2(新颖推理)68.8%

GPT 5.4 赢了 5 个类别,Gemini 3.1 Pro 赢了 4 个,Opus 赢了 3 个。纸面上看,GPT 5.4 是 benchmark 冠军。

但问题来了——我刚展示了一个真实任务的对比,benchmark 冠军的输出质量明显更弱。

为什么?


Benchmark 正在失效

不是"这个特定任务测不到"的问题。整个 benchmark 范式都在崩。

考卷废了。 头部模型在 MMLU 上 88%+,GSM8K 上 99%。所有人都考 A+,这张卷子就没意义了。

分数和实战两回事。 Stanford HAI 和 Confident AI 的研究发现,评测中 90+ 分的 agent,到生产环境经常掉到 60 多。代码生成更夸张——合成 benchmark 上表现很好的模型,在真实代码库上"准确率崩塌到个位数"。排行榜上的分数和你终端里的表现,根本不是同一个东西。

考题泄露了。 一项独立分析发现,SWE-bench 大约三分之一的 issue 在报告或评论中直接包含了解决方案,另外三分之一的测试不足以检测错误修复。三分之一的题答案印在旁边——这分数你信多少?

Gemini 的"假王"事件。 Google 的 Gemini 3 Pro 在 2025 年 11 月加冕 benchmark 冠军。两个月之内,在前沿编码工作中基本没人用了。Nathan Lambert 在 Interconnects 上直接说:这是 benchmark 预测力失败最清晰的案例——纸面上赢了,实战中输了。

连裁判都不靠谱。 LLM-as-Judge 模式下,同样的回答互换位置,判断一致性只有 6/10。仅仅通过位置操纵,弱模型就能在大多数测试上"击败"强模型。

但问题比这更深

Benchmark 表格根本捕捉不到一个关键变量:重要的不只是模型,是模型 + 编排层 + 工具。

我用 Claude Code 的时候,Opus 有网络搜索、文件系统、并行工具执行,加上一个为 agentic 工作设计的对话架构。用 Codex 的时候,GPT 5.4 拿到的是另一套工具和编排层。同一个模型在不同的 harness 里,产出可以天差地别。

Lambert 预测行业会从比较裸模型分数转向评估完整系统。我觉得对一线从业者来说,这个转变早就发生了。我认识的在生产环境跑 AI 的人,没一个关心 GPQA Diamond 分数。他们关心的是:把最难的问题扔给这个系统,它能不能产出可以直接行动的东西?

Benchmark 测的是模型。从业者用的是系统。 所有有趣的差异,都藏在这个鸿沟里。


思考伙伴测试

我的判断是这样的:对 builder 来说——把 AI 当思考伙伴处理复杂决策的人,不只是当代码生成器的人——真正重要的能力是研究主动性结构化严谨度

研究主动性:模型不只是用已有知识回答你,它会主动去查。Opus 做了网络搜索,找到了学术论文,拉了市场数据,挖出了 Pi.ai 这个前例。GPT 用已有知识回答——回答得不错,但没有那一步"让我去查查"。

结构化严谨度:输出有形状。表格不是段落。框架不是观点。正交分解不是"一方面......另一方面......"。做真正的决策时,结构才是让你系统性评估权衡的东西,靠感觉不行。

这两个能力组合在一起——主动去找你没要求的信息,然后组织成让决策更清晰的结构——才是"不错的 AI 输出"和"真正改变你思考方式的输出"之间的分水岭。

Opus 改变了我对 Mio 转型的思考方式。GPT 确认了我已有的想法。

两者都有用。但不是一回事。


所以呢

我不会停用 GPT 5.4。代码生成、快速分析、模型已有知识就够的任务,它干得很好。我的 agentic coding 工作流重度使用两个模型,日常编码 GPT 没问题。

但碰到难题——产品战略、架构决策、"帮我想想这个问题"——我选 Opus。不是因为 benchmark,是因为用了一年的手感。

行业对 benchmark 的执念可以理解。分数可量化,可以放表格里宣布赢家。但一线从业者知道,benchmark 和真实效用之间的鸿沟越来越大。赢 benchmark 的模型和做复杂工作产出最好的模型,正在分化成两件事。

如果你在为真实工作选模型——不是编程谜题或问答,是那种混乱的、多维度的、需要调研的问题——自己跑一次。把手头最难的问题扔给两个模型。比较输出。

也可能只是印证了 30 亿 token 的经验早就告诉你的事:benchmark 很久很久以前就不重要了。

AI 杂谈Part 1 of 12
← PrevNext →

© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0