GPT-5:“里程碑”与“启示录”
不及预期的里程碑,与其带来的诸多启示
2025-08-08 OpenAI 直播发布了备受瞩目的新一代 GPT-5 系列模型,在各种评测榜单上取得新高成绩之余,着重强化了创意写作、编程开发、医疗问答等能力,同时在指令遵循和幻觉降低上也更进一步。值得关注的是,ChatGPT 应用中的 GPT-5 是一套多模型系统,通过一个实时路由来智能选择合适的模型。发布后的几天里,这套系统连同 OpenAI 一众产品决策引发了诸多争议,不少人认为 GPT-5 未达“里程碑”的预期,但在模型内外的各个方面,OpenAI 和 GPT-5 已经带给我们诸多启示。
全面领先的模型,不及预期的里程碑
OpenAI 本次发布涉及的 GPT-5 家族模型主要包括以下 3 个系列、5 款模型:
其中,最核心的模型是前两款 gpt-5-main 和 gpt-5-thinking,参考 OpenAI 口径默认情况下 GPT-5 也指代这两个模型,可用快思考(without thinking)和慢思考(with thinking)进行区分。通过 API 调用慢思考模型时还支持设定推理预算,以控制模型的思考时长,GPT-5 新增了 minimal 档位,加上原有的 low、medium、high 一共 4 档,第三方应用或评测中常看到的 gpt-5-high 就是指推理预算调到最大时的慢思考 GPT-5。
根据 OpenAI 的介绍,GPT-5 是一个更聪明、更广泛可用的模型,在创意写作、编程开发、健康问答等方面都实现了显著提升,可谓“文理工医“全面开花。相比 GPT-4o,GPT-5 在写作时的表达更自然,能更精准地捕捉情绪、把握分寸,作品也更能引起共鸣。数理方面,GPT-5 在数学考试 AIME 2025 和 HMMT 、博士级科学问题 GPQA Diamond 等榜单上已趋于满分,更在专家级的数学评测 FrontierMath 上取得新高成绩,理工能力毋庸置疑,SWE-bench Verified、Aider Polyglot 测评 SoTA 也论证了编程开发能力。医疗健康方面,GPT-5 在 o3 基础上更近一步,刷新了 HealthBench 的最好成绩,且难能可贵地在难题回答中大幅降低了幻觉率,使得医疗健康场景中的可靠性大大提高。
在知名的第三方评测 LMArena 大模型竞技场中,GPT-5 在文本对话、Web 开发、视觉理解等赛场均摘得榜单,且子类也全面第一,近一步证实了 GPT-5 全面领先的实力。
然而这个全面领先的模型,并未在榜单之外获得广泛的认可。最核心的原因是人们对 GPT-5 的期望太高了。作为全硅谷最懂炒作的玩家之一,Sam Altman 自 GPT-4 发布后,就持续不断地暗示 GPT-5 的强大,用两年时间把大众对 GPT-5 的期望抬升到了与 AGI 齐平的位置。期间 OpenAI 从原生多模态和强化推理方向分别训练出了 GPT-4o 和 o 系列模型,但 GPT 主干系列迟迟未迎来升级,不知不觉中 GPT-5 已经坐实了里程碑身份。而发布的 GPT-5 尽管在各类榜单上创下新高,但并未取得大幅度或是断崖式的领先,这些与 ChatGPT 中随 GPT-5 上线的路由体验不足、对 4o 等模型的强行废弃一起,引发了大面积不及预期的评价。
前沿模型进入深水区,仅靠评测已难窥全貌
事实上,即使进步不够显著,GPT-5 仍然是顶尖的模型,但各类评测难以帮我们画出全貌。这背后是前沿模型快速迈入深水区后,大模型评测未能跟上的错位局面。
从公开的静态评测榜单来看,新模型的得分提升其实已经很难让人有具体生动的感知。一方面,MMLU、GSM8K 等来自 GPT-3 时代的传统评测基本均已饱和,难以测评当下的模型进展,甚至有些早期评测本身就有缺陷,一味追求满分反而会有问题;另一方面,Humanity's Last Exam、FrontierMath 的难题榜单又过于刁钻或专业,考查的是全科博士知识和深度数学推理等能力,容易通过针对性训练和算力堆叠不断提升,也脱离了绝大多数人的使用场景。
即使是动态评测如 LMArena 这类盲测竞技场,公信力和代表性也在双双下降。此前 Meta Llama 4 发布时就被曝出曾与 LMArena 合作测试多款模型的丑闻,最终 Llama 4 的真实成绩大幅滑落,导致 LMArena 中立性备受质疑。而且从当下前沿模型的能力而言,LMArena 文本对话主赛场可能更容易体现的是后训练阶段“招人喜欢”的能力,典型例子是 GPT-4o 通过几次更新维持名次位于前列。这种测试与真实场景的重叠度有几何,也需要打一个问号。
诸多创意写作、医疗健康等能力,尚无广泛认可的模型基准评测。OpenAI 对 GPT-5 的创意写作能力的介绍主要是描述和举例,尽管从放出的 GPT-4o 与 GPT-5 对比写作案例看,后者确实更自然、更懂文字,但仅凭例子自然是无法充分论证。健康问答方面,主要的评测 HealthBench 则是 OpenAI 自己提出的,从 o3 时就已领先各家模型,GPT-5 又有进步也无需意外。
进一步,目前流行的 AI Agent 开发则对大模型提出了更为综合的能力。粗粒度看,模型需要具备较强的规划推理能力,这种能力在不同 Agent 应用中可能有不同的体现,比如 SWE-bench Verified 事实上测评的是 Coding Agent 的端到端编程开发能力,即要求模型会规划,也需要给模型配套武装为 Agent 才行;细粒度看,又有基础的指令跟随和工具使用能力,如 GPT-5 在指令跟随评测 COLLIE 表现有所提升,在 OpenRouter 的工具调用准确率统计中接近满分。
总体而言,随着大模型快速发展进入深水区,单一模型评测早已无法刻画模型进步。尽管 GPT-5 在许多榜单取得领先,但仍需看到评测的错位,模型能力的某些维度还没有可靠的评测,不少新兴评测可能难以体现模型综合能力,大模型评测仍需长足发展。
硬刚 AI Coding,性价比成 OpenAI 法宝
GPT-5 发布周,OpenAI 面临的外部环境是持续加码的头部竞争。Anthropic 抢在 OpenAI 开源语言模型 gpt-oss 前发布 Claude Opus 4.1,又在 GPT-5 的争议声中升级 Claude Sonnet 4 支持百万 token 上下文;对美政府工作人员免费开放 Claude 的使用权限,直指 OpenAI 刚签订的 $1 象征性订阅费。Google Gemini 上线了刚拿下 IMO 金牌的 Gemini 2.5 Deep Think 模型;同一周还放出了世界模型 Genie 3 的预览,凭借长时间高质量的演示吸引了大量关注。Elon Musk 已经在一个月前率 xAI 的 Grok 4 快马杀来,这周还在卖力宣传新上线的视频生成功能 Imagine,试图为 Grok 拿下用户增长。
从模型丰富度看,只有 Google 能和 OpenAI 媲美,尽管前者追赶之势极盛,但 ChatGPT 的增长依然高速,xAI 的 Grok 亦难与之比。然而消费应用外的商业应用,特别是近一年来所有 AI Coding 相关的应用,市场几乎被 Anthropic 的 Claude 系列模型垄断,模型能力和市场表现均胜于 GPT 系列甚至 o 系列模型,这是长期以模型领先为核心价值的 OpenAI 所不能接受的。于是在刷榜之外,OpenAI 着重增强了 GPT-5 的编程开发能力和实战易用性。
一个直观的体现是,OpenAI 在常规发布的研究博客外,特意为 GPT-5 新增了很长的一篇面向开发者的专门介绍,称其为适用于编程和智能体任务的最好模型。
首先是复杂前端应用的生成,OpenAI 团队在发布会直播中花了不少时间留给 GPT-5 现场演示应用生成,一句提示词就能生成十分完整的应用,来自 Cursor、Windsurf、Vercel 等开发团队的测试人员均高度赞扬了 GPT-5 的开发能力。其次是对已有大型代码仓库的理解和 debug 能力,GPT-5 在 SWE-bench Verified 这个给定代码仓库解决问题的评测中取得了接近 75% 的成绩,而且耗费的 token 还少于 o3,更高效实惠,OpenAI 透露团队在内部的部分复杂强化学习代码库上也能和 GPT-5 讨论优化。还有智能体任务表现的增强得到 Manus、Notion 团队的首肯,新增加了 minimal 最低档的推理预算参数和控制生成长度的 verbosity 选项,都有助于开发者更好落地应用。
当然,Claude 4 系列在 SWE-bench Verified 上准确率也超过 70%,如果仅仅是在评测中略胜一毫,GPT-5 并不足以打破市场已围绕 Claude 形成的 AI Coding 生态。OpenAI 自然也意识到这一点,他们的方案是在保证模型不输的情况下,打出足够的性价比。
GPT-5 百万 token 输入/输出定价为 $1.25/$10。作为对比,Claude Sonnet 和 Opus 的百万 token 输入/输出定价分别为 $3/$15、$15/$75。如果从 Claude 换到 GPT-5,至少能省一半,这对 Cursor 等曾强依赖 Claude 的 AI Coding 产品而言,将是极大的吸引力。结合更便宜的 GPT-5-mini($0.25/$2)、GPT-5-nano($0.05/$0.4),OpenAI 凭借这个系列的定价,有望重新夺回大模型的性能-价格帕累托前沿。
不过,考虑到 Google 在 Gemini 定价上的底气,当下一代 Gemini 3 推出时,GPT-5 的性价比优势能否维持,并不乐观。Anthropic 不会坐以待毙,xAI 也坐拥算力集群虎视眈眈,大模型头部竞争仍将继续。
AGI 当会快慢思考切换,但系统一二融合很难
OpenAI 此次发布着重提及了 GPT-5 是个统一系统,由两个模型加一个路由器组成,其中 gpt-5-main 主模型负责大部分问题的快速高效相应,gpt-5-thinking 推理模型则可以通过深入思考处理复杂难题,基于 真实用户行为数据持续训练的实时路由器,能够根据当前对话类型、复杂度、工具需要和用户意图等在两个模型中选出适合者,实现智能切换,如果选了推理模型可能还能根据问题难度调控推理时长。
为何 OpenAI 要做这套系统
首先,OpenAI 长期以追求实现通用人工智能(Artificial General Intelligence,AGI)为使命,在其设想中,AGI 是“在各方面比人类更聪明的 AI 系统”,而对一个问题做出难度判断并分配合理精力去解决,是人类普遍具备的能力,也是通用智能的基本体现。如果一个 AI 模型在回答任意问题时都要深思熟虑耗时良久,很难认同其达到了 AGI 级别。比如对于先前的某些慢思考模型,用户只是打招呼说了句“你好”,模型就要在思维链中千回百转地唱独角戏,滑稽有余,智能不足。
其次,模型谱系及版本的迭代使得 ChatGPT 的使用复杂度持续增加,一套统一的入口有望帮助 OpenAI 缓解这种局面。自 2023 年 9 月推出 o1 系列模型、开启强化推理新阶段后,ChatGPT 中围绕 o 系列模型及相关功能的迭代也开始与 GPT 系列并行推进。GPT-5 发布前,ChatGPT 中不同模型与功能入口已有十余个,甚至引得高级用户如 Andrej Karpathy 分享经验供大家参考。这种情况客观上给用户造成了较大的认知成本和使用负担,官方也早已发声会简化模型选择器,而 GPT-5 系统就扣上了这一环。
更进一步,这套系统能帮助 OpenAI 更有效地将前沿模型能力推给广泛的用户,本质上实现了智能的匹配。ChatGPT 的 7 亿周活跃用户中,绝大多数日常只用 GPT-4o,即使是订阅用户很可能也并不了解 o3 等推理模型。可想而知,GPT-4o 的边界可能就是多数用户认知的 AI 边界,尽管 OpenAI 仍在持续提升模型智力。因此,一套意图到智能的匹配系统有利于提升前沿模型的可感度。GPT-5 发布后几天内,使用推理模型的免费和订阅用户比例分别从不足 1% 升至了 7%、7% 升至了 24%[1],这些都可以帮助用户感知到模型的进步。
为何是一套系统而非一个模型
事实上,OpenAI 原本的计划是通过一个足够聪明的统一模型来实现这种 意图-智能 匹配,但在实践过程中发现难度远超想象。2025 年 2 月,o 系列模型发布半年后,Sam Altman 曾分享了 OpenAI 对 GPT-4.5 和 GPT-5 的规划路线图,声明 GPT-5 会作为大一统系统发布,集成 GPT 系列对话模型和 o 系列推理模型,甚至当时强调不会单独发布 o3。然而,不久后就在 4 月初宣布计划有变,因为团队低估了统一模型的难度,想要把这些模型丝滑地集成融合到一起,是一件复杂难题,不得已发布了 o3 作为缓兵之计。
直到 GPT-5 发布,OpenAI 也没能完成统一模型。目前 GPT-5 从模型层面做到的,是如何更有效地思考。比如在科研推理、软件工程等榜单上,用更低档的推理预算就能取得同样甚至更好的成绩;而在 Pokemon Red 游戏中,也能以远少于 o3 的步数取得所有徽章。这些一定程度上体现了模型思考机制的优化,聪明的模型会像聪明的人一样快速抓住要害,不在无关之处过多消耗时间,也许是未来统一模型的一个方向。
而在统一模型这件难事上,OpenAI 并非孤例。2025 年 4 月末,阿里通义团队发布 Qwen3 系列开源模型,最大的亮点就是支持混合推理,即一个模型同时支持快思考和慢思考两种模式,可以通过推理参数或是指令关键词灵活控制。然而到了 7 月,Qwen3 系列多款主力模型又被团队重新拆开,比如原本的旗舰模型 Qwen3-235B-A22B 分拆为指令对话增强版 Qwen3-235B-A22B-Instruct-2507 和深度思考增强版 Qwen3-235B-A22B-Thinking-2507。背后的主要动机是,快慢思考两版模型在分开训练后性能都得到了显著提升,而强行融合为一个模型,则大大限制了模型的智能上限。
可见,相比人类自然习得的快慢思考双系统,在保证不损失智能的情况下融合大模型的系统一与系统二,目前尚非易事。这也是 OpenAI 在 GPT-5 上折衷选择路由方案的原因,尽管他们仍表示未来会通过统一模型来实现。靠一个模型抵达 AGI,道阻且长。
4o 回滚,端到端的AI体验背后有套复杂系统
伴随 GPT-5 上线,OpenAI 同步隐藏了 ChatGPT 中的模型选择器,原有的 GPT-4o 被弃用,这直接引发了用户的大量声讨,“GPT-4o 建立了深厚感情”、“和被迫使用的 GPT-5 聊不来”、“还我 4o”,最终 OpenAI 妥协,恢复订阅用户对 GPT-4o 的使用权。然而,事件背后折射的是大模型产品的不透明和用户真实体验的复杂性。
必须说明的是,当我们提到 4o 时,可能指的并非同一个模型。以 OpenAI API 平台为例,可调用的 GPT-4o 模型至少对应 gpt-4o-2024-05-13 、 gpt-4o-2024-08-06 、 gpt-4o-2024-11-20 三个不同时间的快照:
ChatGPT 应用中,GPT-4o 自 2024 年 5 月中发布以来同样在持续滚动更新,根据 ChatGPT 更新记录 和 模型更新记录,与模型直接相关的提升与改进更新就有不下 5 次。即 OpenAI 一直在对 GPT-4o 进行后训练优化,每次有一些性能提升或问题修复,就发布一个新版本(就像 DeepSeek-V3 和 R1 分别在 2025 年 3 月 和 5 月发布的更新一样),这些版本更新可能涉及到具体能力的提升、补充了新的训练数据,也可能是在对齐方面有一些“个性”上的调整,会直接影响用户对话时的感受。
如上表中 2025 年 4 月底的更新就引发了一场对齐事故,25 日上线的 GPT-4o 版本过于谄媚,会对用户过度附和称赞,在一些极端场景可能导致自杀等致命问题。OpenAI 随后回滚了这次更新,并认真进行了反思。一朝被蛇咬,十年怕井绳,此次事件可能不小程度上冲击了 OpenAI 的对齐理念,也令其感受到了 ChatGPT 作为 AI 代名词的责任,已不仅局限于传统的 CBRN(化学、生物、放射、核武器)和网络安全等具象威胁,更要深入关注和思考用户与 ChatGPT、人与 AI 的关系。于是,团队在 GPT-5 的训练中便致力于控制模型的讨好性,据其评估,GPT-5 相比 GPT-4o 有显著降低。
但是不讨好的 GPT-5 顶岗 4o 刚一上线,ChatGPT 的部分用户就不买帐了,类似“痛失好友”主题的帖子传播并引起共鸣,同时吐槽 GPT-5 之难用、ChatGPT 体验下滑。
这其中有一系列的原因。首先,根据官方说法,刚上线前两天负责智能切换模型的路由并未正常工作,显得 ChatGPT 有些智障;其次,初期免费或 Plus 用户都面临较强的频率限制,超限后会被降至 mini 系列模型,而且对话界面上没有明确的模型标识,导致大部分人不知道自己用的是 mini,预期错位体验糟糕;再者,GPT-4o 等模型的废弃对于用户而言是未经告知的产品功能损失,GPT-5 的不稳定也加重了这一不满。这些都是 OpenAI 在 ChatGPT 产品上犯的错,也是其对路由功能过度自信导致的失误。
抛开产品上线的问题,用户在 ChatGPT 上获取的 AI 体验,也绝非 GPT-5 与 GPT-4o 模型之比这么简单。模型本身仅仅是权重,后训练的对齐策略一定程度上限定了模型的性格,比如是否有讨好倾向等;在模型接入 ChatGPT 时,还有复杂的系统提示词来约束和引导模型的表现;但是 ChatGPT 还有自定义指令和记忆等多个影响 AI 的选项,前者由用户指定,后者也由 AI 刻画。所以当用户在对话框发送一个问题后,这些上下文是先合成到一起再输入给模型的,不同模型的指令遵循度和提示词敏感性可能不同,因此其中每一环都有可能影响到 AI 的响应,端到端的体验本身是件复杂的系统。
现在,如果你想用回 GPT-4o,至少还需要 Plus 及以上订阅,尽管这种“付费才能降级”的操作听上去荒诞,但 OpenAI 也能借此在某种程度上筛选 4o 真爱、增加付费订阅,也算一招。
个性化是 AI 超级应用的必然方向
ChatGPT 已有 7 亿周活用户,已是当之无愧的 AI 超级应用。但正是因为 ChatGPT 的用户体量,OpenAI 也在面临着“领先者诅咒”。比如,备受关注的 GPT-5 滚动推给全量用户,就需要花不少时间,同步解决工程问题和用户反馈;再比如 OpenAI 内部也许还有不少更领先的存货,比如之前摘得 IMO 金牌的模型等,但暂时不适合推出或资源所限无法上线等。
但与这些相比,ChatGPT 更难解决的是如何找到一个最优的迭代方向。有人为 GPT-4o 的过渡谄媚担忧,也有人离不开 4o 的绝对支持。OpenAI 不能指望一套对齐理念适应所有的用户,也不能随意测试又回滚,合理地听取用户反馈也不容易,比如在人们反馈 GPT-5 过于正式后,决定让它更温暖和友好些。而不少用户又已经在抗议了。
沿着这个用户体量看去,社交与内容网络类应用占据了绝对主导,都是典型的多对多应用,平台负责连接与匹配,用户总能找到适合自己的。但 ChatGPT 不同,借助 AI 的力量单方面供应智力与陪伴,以一对多应用的形态杀进了这个圈层。随着 AI 大模型为人所知,真实的 AI 应用已经多样化,对模型能力提出不同的要求。ChatGPT 正要面临用户对模型需求不集中的瓶颈,唯一的解决方案——如 Sam Altman 近一周多次强调的——是个性化 AI。
个性化 AI 可能体现在两个方面,一个是从用户侧构建个性化记忆,运用上下文让 AI 懂用户。ChatGPT 的记忆功能就是一个典范,根据历史对话有所侧重的构建用户画像,聊得越多就越懂你,无形之中构筑了壁垒。Gemini 近日也推出了类似的个性化上下文功能,意图与其竞争。
另外是 AI 侧,直接为用户提供适合的个性化模型/人设。伴随 GPT-5 发布,ChatGPT 中已经增加了 Cynic、Robot、Listener、Nerd 几个不同人设,但仍是固定预设,需要用户体验选择。据 OpenAI 透露,这些 AI 人设是基于模型可控性(steerability)的提升来实现的,区别于自定义指令,也许一定程度上意味为每个用户适配的个性化 AI 人设是有望跑通的一条路线。也许还很远,但让 AI 更懂你、也更适合你的个性化方向,已是 AI 超级应用的必然选择。
结语
GPT-5 作为“里程碑”也许不及预期,但作为一款领先的模型,可用落地、有性价比。而 OpenAI 在 GPT-5 上新引入的路由和统一模型的努力,也许是下一个阶段的焦点。对于 ChatGPT 这样的 AI 超级应用而言,现状注定无法满足所有人的需求,唯有个性化 AI 才是破局方向。