焦点

GPT-5不是技术新范式，是OpenAI加速产品化的战略拐点

webmaster

八月 12, 2025 - 20:38

0 0

本文来自微信公众号：海外独角兽，作者：Cage、GPT-5，题图来自：AI生成

如何评价OpenAI，决定了如何评价GPT-5

如果把 OpenAI 当作已经成功破圈的 10 亿 MAU 大众产品公司：

GPT-5 是 ChatGPT 产品一次重要的升级。Routing 能力的加入第一次帮助 ChatGPT 模型把产品线捋顺统一，是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线，短期用户可能会被迫适应 GPT-5 这个旗舰产品的优缺点，但长期更容易占领用户心智。

GPT-5 的模型能力强调实用性和生产力，这标志着 ChatGPT 产品正在从 “朋友”走向“助手”。Vibe coding 的能力相比前代模型大幅度提升，reasoning model 也变得更可靠、高效。

GPT-5 引导着 AI 推理的算力需求继续增加。一旦推动更多普通用户、非技术企业的使用习惯向 reasoning model + vibe coding 迁移，会出现更多高 token cost 的推理任务。

如果仍把 OpenAI 看作“追逐 AGI 技术范式的实验室”：

这次发布看不到明确的范式升级，也没有解锁更高经济价值的新任务类型。

Router 没有内化到同一个模型中，这个进度有些低于预期。Scaling Law 告诉我们，模块化系统的智能程度一定不如端到端模型。

对 SOTA 模型做 vibe check 需要更长时间的体验和观察，去多维度、高频交互，就像结识了一个新朋友。未来一定有初创公司基于 GPT-5 降本、解锁新场景，这部分影响需要时间与规模化验证。

这两个视角差异的背后其实是 OpenAI 在最近一年的蜕变：ChatGPT 是 To C 最好的智能产品品牌，他们正在从一个 research lab 公司转变为一个产品平台公司。近半年，ChatGPT 的增速显著加快、用户使用习惯开始泛化、使用粘性也开始增加，这代表着产品开始逃离传统增长困境的引力（escape velocity）、真正破圈走向大众，有了下一个 Google 的影子。

因此我们会更希望从 OpenAI 作为产品公司的视角来评价 GPT-5。

GPT-5是精通现有场景的Everything Model，但不是次世代Agentic Model

经过这几天的 vibe check，我们能感受到，在多数场景下，AI 的任务完成度都有一定提升，不是那种“上手即惊艳的智力飞跃”，但是真正解决了许多现实 use case 的卡点。

GPT-5 有几个明显的能力提升：

Vibe coding 的提升幅度大，在复杂问题上仍不及 Claude Opus 4.1 / Sonnet 4，但性价比极高，能平替大量基础任务。

Reasoning 的效率与效果较 o3 明显提升，长上下文 / 工具使用比前代更稳。

API 支持自定义工具，能定义高灵活度的 tool-use 工具集。

也有一些明显的短板：

Agentic 能力体感没有明显进步，Claude Code 类 agentic coding 任务明显不如 Claude 4，Deep Research 的表现似乎也略有下降。

GPT-4o 式有“人味”和情感的对话在 GPT-5 上明显减弱，许多用户希望线上长期保留 4o / 4.5。主要原因可能是 routing system 的加入、 hallucanation 的降低还有 coding 数据比例的增加，后文会展开讨论。

指令跟随（instruction following）不如 Claude，尤其在 Cursor 这类环境比较明显的平台，复杂指令中一部分要求容易被忽略。

GPT-5不是单一模型，而是一个Router驱动的系统

Router（路由器）能按用户给的问题复杂度与 prompt 信号，动态选择不同模型的智力水平、思考深度。用户可以说 think harder 来提示 router 用更深度的思考。

Router 本身是个小模型，利用历史用户行为数据（如切换模型的时机、对回答的偏好/正确性）进行训练。随着 GPT-5 用户数据的积累，router 的模型选择能力会很快优化提升上去。

未来 ChatGPT 计划把 Router 合入同一个模型。目前仍未统一，这一进度是低于预期的。毕竟 Scaling Law 告诉我们，end-to-end model 比 cascade model 更智能。

Routing 系统和用户抱怨的对话体验差相关性挺高，4o 重度用户使用起来容易不习惯：（1）对于陪伴型用户，同时与多个“人格”对话，可能出现风格不统一；（2）对于效率型用户，复杂问题若未被路由到 reasoning model，更容易出现幻觉。

Routing 系统带来的商业影响有些类似于 Apple 做手机的路径：只做一款产品，用户需要被迫接受一款单一的产品。但在商业上，这样有助于把成本优化做到更极致，更容易占领长期的用户心智。这一点明显比 Google Gemini 选择的多产品线（AI Mode， AI Overview， NotebookLM， Project Astra， Project Mariner……）并存更好。

下场API价格战，价格上对标Gemini 2.5，做Claude 4 killer

伴随着 Anthropic API 收入超过 OpenAI 的消息，GPT-5 下场开始打价格战，用性价比挑战 Claude 4 的高端模型定位。

旗舰模型价格对比：GPT-5 定价与 Gemini 2.5 Pro 持平，是 Sonnet 4 的一半、Opus 4 的十分之一，比 4o 还便宜。

平价模型价格对比： Gemini 2.5 Flash 是 AI Coding 开发者之前最喜欢的平替模型，而 GPT-5 mini 更便宜。

相比Coding Agent，GPT-5更适合做Vibe Coding

2024 年 6 月 Claude 3.5 Sonnet 发布以来，Vibe Coding 在这一年成了 AI 能力应用的主航道，OpenAI 终于追上来了。

我们测试和阅读开发者体验后，确信 GPT-5 的 coding 能力确实比前代模型提升很大，但更多是面向 Cursor 这样的 Pair Programming 产品使用，而不是为 Claude Code 这样的 Agentic Coding 产品设计的。

GPT-5 Coding 的优点是非常适合做 Pair Programmer，在 IDE 中配合进行迭代式开发，Debug 的体验也很不错。

对应的缺点就是 GPT-5 还不够适合 Agentic Coding。对比 Claude Code（Opus 4.1），GPT-5 写代码更谨慎，对长代码/长时间执行的任务不够放得开。尽管 GPT-5 在 SWE-Bench 上的成绩为 74.9%，甚至略高于 Claude Opus 4.1 的 74.5%，但我们会认为，GPT-5 目前更像追平 Sonnet 3.7，而非对标 Opus 4.1。

来自 Dan Shipper 的一个测试案例能比较生动地展示这个特点，他要求各个 Coding Model 做一个“地球生态气候系统模拟”的小游戏：

Gemini 和 o3 的完成度很低，基本没跑起来；

GPT-5 顺利完成了，但是看起来很无趣，更像一个模拟系统，需要用户再去交互、进一步协同修改；

GPT-5 完成的小游戏

Opus 4.1 one shot 完成了整个任务，并且 gameplay 上明显比 GPT-5 更好，加入了一定的用户 feature 和资源系统；

Claude Opus 4.1 完成的小游戏（source https://every.to/vibe-check/gpt-5）

相比于 Claude 竞争专业开发者（professional developer）的尖端需求，ChatGPT 可能更适合切入类似 Lovable 的 vibe coding 平台，去满足泛大众开发者（citizen developer）的 vibe coding 需求。

一个值得思考的问题是：考虑到 ChatGPT 10 亿月活的用户体量，这次是否有机会把 vibe coding 需求推到新的高度？

我们认为OpenAI 其实有机会基于 coding + 用户泛化来做一个生成式软件的平台，这能成为新的 AI workspace 入口。

Reasoning能力的进步和产品化正在扩散

Sam 在推文中提到，普通用户的 reasoning model 使用率正在从不到 1% 提升到 7%，plus 用户从 7% 提升到 24%。传统企业用户使用最多的其实也是 4o 模型，可以给 reasoning model 扩散的空间还很大。

其中一方面归功于 routing 能力带来的渗透率增加，另一方面值得关注的地方在于，reasoning 能力这次有两个重要进步：不是花哨的前沿解题能力提升，但是在应用中更加实用。

幻觉显著优化：早期 o3 的 RL reward hacking 会导致“谎称任务完成/对不确定答案过度自信”。GPT-5 大幅缓解了这一点：在 CharXiv 多模态基准中，把 prompt 里的所有图片移除，o3 在 86.7% 情况下仍“自信回答”并不存在的图片问题，而这一情况在 GPT-5 仅占 9%。

推理效率更高：在优于 o3 的同时，token 成本下降了 50％～80%。在 API 中也设置了参数可以支持 low / medium / high 三档推理强度（GPT-5 API 中也有 routing 机制，开发者可以选择看到模型 thinking trace）。

Tool use：最有想象力的更新，模型智能进入石器时代？

人类会使用工具，这是人类智能和动物最大的差异。对于机器智能而言，tool use 同样重要，GPT-5 是一个不错的开始。

这次 GPT-5 的发布强调了 tool use 能力的优化：GPT-5 不满足于 get_weather（address）这类窄工具。它偏好开放式、可组合、以自然语言为输入的工具——能“1+1>2”，像子代理（sub-agent）一样独立理解意图并完成任务。

当我们说工具的时候，通常包含了这样四类：Internal Retrieval（RAG、SQL），Web Search（比前一种检索更开放）、Code Interpreter（沙箱代码执行与数据处理）、Actions（一切对环境产生改变的操作，比如点击 UI、修改文件等）。

过去这几类工具都需要严格的 JSON schema 设计，而 GPT-5 支持了更自由的调用接口，在发布中成为 free-form function calling。这个更新让模型不再强依赖“严格 JSON schema + 精确槽位填充”，而是先给出自然语言级的工具意图（包括基础的工具名/动词/关键参数），由小模型去解析和执行。

另一个重要的更新方向是 Parallel tool calling：这个功能之前在 Claude、Qwen 的技术报告中都涉及过，GPT-5 在智能程度上进了一步，还能判断哪些该并行、哪些该串行，这样未来有机会解锁更长的任务链。

说到这里其实会发现，GPT-5 的 tool use 设计思路比较接近 Claude Code：free-form function calling 类似于一种 subagent 设计，parellel tool calling 也在 Claude Code 中出现过。

本文的大部分篇幅着墨于 GPT-5 在现有任务上是如何成为一个实用、优秀的 everything model，OpenAI 的产品化战略是如何体现在 GPT-5 发布中的。但 OpenAI 长期要保持领先的身位优势，Agentic 能力一定是不能落下的。这次 tool use 是一个不错的探索方向，我们期待 GPT-5 的后续演进上有更多这样的亮点。

本文来自微信公众号：海外独角兽，作者：Cage、GPT-5

阅读