GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点

八月 12, 2025 - 20:38
 0  0
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点

本文来自微信公众号:海外独角兽,作者:Cage、GPT-5,题图来自:AI生成


如何评价OpenAI,决定了如何评价GPT-5


如果把 OpenAI 当作已经成功破圈的 10 亿 MAU 大众产品公司:


  • GPT-5 是 ChatGPT 产品一次重要的升级。Routing 能力的加入第一次帮助 ChatGPT 模型把产品线捋顺统一,是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线,短期用户可能会被迫适应 GPT-5 这个旗舰产品的优缺点,但长期更容易占领用户心智。


  • GPT-5 的模型能力强调实用性和生产力,这标志着 ChatGPT 产品正在从 “朋友”走向“助手”。Vibe coding 的能力相比前代模型大幅度提升,reasoning model 也变得更可靠、高效。


  • GPT-5 引导着 AI 推理的算力需求继续增加。一旦推动更多普通用户、非技术企业的使用习惯向 reasoning model + vibe coding 迁移,会出现更多高 token cost 的推理任务。


如果仍把 OpenAI 看作“追逐 AGI 技术范式的实验室”:


  • 这次发布看不到明确的范式升级,也没有解锁更高经济价值的新任务类型。


  • Router 没有内化到同一个模型中,这个进度有些低于预期。Scaling Law 告诉我们,模块化系统的智能程度一定不如端到端模型。


  • 对 SOTA 模型做 vibe check 需要更长时间的体验和观察,去多维度、高频交互,就像结识了一个新朋友。未来一定有初创公司基于 GPT-5 降本、解锁新场景,这部分影响需要时间与规模化验证。


这两个视角差异的背后其实是 OpenAI 在最近一年的蜕变:ChatGPT 是 To C 最好的智能产品品牌,他们正在从一个 research lab 公司转变为一个产品平台公司。近半年,ChatGPT 的增速显著加快、用户使用习惯开始泛化、使用粘性也开始增加,这代表着产品开始逃离传统增长困境的引力(escape velocity)、真正破圈走向大众,有了下一个 Google 的影子。


因此我们会更希望从 OpenAI 作为产品公司的视角来评价 GPT-5。


GPT-5是精通现有场景的Everything Model,但不是次世代Agentic Model


经过这几天的 vibe check,我们能感受到,在多数场景下,AI 的任务完成度都有一定提升,不是那种“上手即惊艳的智力飞跃”,但是真正解决了许多现实 use case 的卡点。


GPT-5 有几个明显的能力提升:


  • Vibe coding 的提升幅度大,在复杂问题上仍不及 Claude Opus 4.1 / Sonnet 4,但性价比极高,能平替大量基础任务。


  • Reasoning 的效率与效果较 o3 明显提升,长上下文 / 工具使用比前代更稳。


  • API 支持自定义工具,能定义高灵活度的 tool-use 工具集。


也有一些明显的短板:


  • Agentic 能力体感没有明显进步,Claude Code 类 agentic coding 任务明显不如 Claude 4,Deep Research 的表现似乎也略有下降。


  • GPT-4o 式有“人味”和情感的对话在 GPT-5 上明显减弱,许多用户希望线上长期保留 4o / 4.5。主要原因可能是 routing system 的加入、 hallucanation 的降低还有 coding 数据比例的增加,后文会展开讨论。


  • 指令跟随(instruction following)不如 Claude,尤其在 Cursor 这类环境比较明显的平台,复杂指令中一部分要求容易被忽略。


GPT-5不是单一模型,而是一个Router驱动的系统


Router(路由器)能按用户给的问题复杂度与 prompt 信号,动态选择不同模型的智力水平、思考深度。用户可以说 think harder 来提示 router 用更深度的思考。


Router 本身是个小模型,利用历史用户行为数据(如切换模型的时机、对回答的偏好/正确性)进行训练。随着 GPT-5 用户数据的积累,router 的模型选择能力会很快优化提升上去。


未来 ChatGPT 计划把 Router 合入同一个模型。目前仍未统一,这一进度是低于预期的。毕竟 Scaling Law 告诉我们,end-to-end model 比 cascade model 更智能。


Routing 系统和用户抱怨的对话体验差相关性挺高,4o 重度用户使用起来容易不习惯:(1)对于陪伴型用户,同时与多个“人格”对话,可能出现风格不统一;(2)对于效率型用户,复杂问题若未被路由到 reasoning model,更容易出现幻觉。


Routing 系统带来的商业影响有些类似于 Apple 做手机的路径:只做一款产品,用户需要被迫接受一款单一的产品。但在商业上,这样有助于把成本优化做到更极致,更容易占领长期的用户心智。这一点明显比 Google Gemini 选择的多产品线(AI Mode, AI Overview, NotebookLM, Project Astra, Project Mariner……)并存更好。



下场API价格战,价格上对标Gemini 2.5,做Claude 4 killer


伴随着 Anthropic API 收入超过 OpenAI 的消息,GPT-5 下场开始打价格战,用性价比挑战 Claude 4 的高端模型定位。



  • 旗舰模型价格对比:GPT-5 定价与 Gemini 2.5 Pro 持平,是 Sonnet 4 的一半、Opus 4 的十分之一,比 4o 还便宜。



  • 平价模型价格对比: Gemini 2.5 Flash 是 AI Coding 开发者之前最喜欢的平替模型,而 GPT-5 mini 更便宜。



相比Coding Agent,GPT-5更适合做Vibe Coding


2024 年 6 月 Claude 3.5 Sonnet 发布以来,Vibe Coding 在这一年成了 AI 能力应用的主航道,OpenAI 终于追上来了。


我们测试和阅读开发者体验后,确信 GPT-5 的 coding 能力确实比前代模型提升很大,但更多是面向 Cursor 这样的 Pair Programming 产品使用,而不是为 Claude Code 这样的 Agentic Coding 产品设计的。


GPT-5 Coding 的优点是非常适合做 Pair Programmer,在 IDE 中配合进行迭代式开发,Debug 的体验也很不错。


对应的缺点就是 GPT-5 还不够适合 Agentic Coding。对比 Claude Code(Opus 4.1),GPT-5 写代码更谨慎,对长代码/长时间执行的任务不够放得开。尽管 GPT-5 在 SWE-Bench 上的成绩为 74.9%,甚至略高于 Claude Opus 4.1 的 74.5%,但我们会认为,GPT-5 目前更像追平 Sonnet 3.7,而非对标 Opus 4.1。


来自 Dan Shipper 的一个测试案例能比较生动地展示这个特点,他要求各个 Coding Model 做一个“地球生态气候系统模拟”的小游戏:


  • Gemini 和 o3 的完成度很低,基本没跑起来;


  • GPT-5 顺利完成了,但是看起来很无趣,更像一个模拟系统,需要用户再去交互、进一步协同修改;


GPT-5 完成的小游戏


  • Opus 4.1 one shot 完成了整个任务,并且 gameplay 上明显比 GPT-5 更好,加入了一定的用户 feature 和资源系统;


Claude Opus 4.1 完成的小游戏(source  https://every.to/vibe-check/gpt-5)


相比于 Claude 竞争专业开发者(professional developer)的尖端需求,ChatGPT 可能更适合切入类似 Lovable 的 vibe coding 平台,去满足泛大众开发者(citizen developer)的 vibe coding 需求。


一个值得思考的问题是:考虑到 ChatGPT 10 亿月活的用户体量,这次是否有机会把 vibe coding 需求推到新的高度?


我们认为OpenAI 其实有机会基于 coding + 用户泛化来做一个生成式软件的平台,这能成为新的 AI workspace 入口。


Reasoning能力的进步和产品化正在扩散


Sam 在推文中提到,普通用户的 reasoning model 使用率正在从不到 1% 提升到 7%,plus 用户从 7% 提升到 24%。传统企业用户使用最多的其实也是 4o 模型,可以给 reasoning model 扩散的空间还很大。



其中一方面归功于 routing 能力带来的渗透率增加,另一方面值得关注的地方在于,reasoning 能力这次有两个重要进步:不是花哨的前沿解题能力提升,但是在应用中更加实用。


  • 幻觉显著优化:早期 o3 的 RL reward hacking 会导致“谎称任务完成/对不确定答案过度自信”。GPT-5 大幅缓解了这一点:在 CharXiv 多模态基准中,把 prompt 里的所有图片移除,o3 在 86.7% 情况下仍“自信回答”并不存在的图片问题,而这一情况在 GPT-5 仅占 9%。



  • 推理效率更高:在优于 o3 的同时,token 成本下降了 50%~80%。在 API 中也设置了参数可以支持 low / medium / high 三档推理强度(GPT-5 API 中也有 routing 机制,开发者可以选择看到模型 thinking trace)


Tool use:最有想象力的更新,模型智能进入石器时代?


人类会使用工具,这是人类智能和动物最大的差异。对于机器智能而言,tool use 同样重要,GPT-5 是一个不错的开始。


这次 GPT-5 的发布强调了 tool use 能力的优化:GPT-5 不满足于 get_weather(address)这类窄工具。它偏好开放式、可组合、以自然语言为输入的工具——能“1+1>2”,像子代理(sub-agent)一样独立理解意图并完成任务。


当我们说工具的时候,通常包含了这样四类:Internal Retrieval(RAG、SQL),Web Search(比前一种检索更开放)、Code Interpreter(沙箱代码执行与数据处理)、Actions(一切对环境产生改变的操作,比如点击 UI、修改文件等)


过去这几类工具都需要严格的 JSON schema 设计,而 GPT-5 支持了更自由的调用接口,在发布中成为 free-form function calling。 这个更新让模型不再强依赖“严格 JSON schema + 精确槽位填充”,而是先给出自然语言级的工具意图(包括基础的工具名/动词/关键参数),由小模型去解析和执行。



另一个重要的更新方向是 Parallel tool calling:这个功能之前在 Claude、Qwen 的技术报告中都涉及过,GPT-5 在智能程度上进了一步,还能判断哪些该并行、哪些该串行,这样未来有机会解锁更长的任务链。


说到这里其实会发现,GPT-5 的 tool use 设计思路比较接近 Claude Code:free-form function calling 类似于一种 subagent 设计,parellel tool calling 也在 Claude Code 中出现过。


本文的大部分篇幅着墨于 GPT-5 在现有任务上是如何成为一个实用、优秀的 everything model,OpenAI 的产品化战略是如何体现在 GPT-5 发布中的。但 OpenAI 长期要保持领先的身位优势,Agentic 能力一定是不能落下的。这次 tool use 是一个不错的探索方向,我们期待 GPT-5 的后续演进上有更多这样的亮点。


本文来自微信公众号:海外独角兽,作者:Cage、GPT-5

你的反应是什么?

喜欢 喜欢 0
不喜欢 不喜欢 0
喜爱 喜爱 0
有趣 有趣 0
愤怒 愤怒 0
悲伤 悲伤 0
哇 0