GPT-5 的难产内幕

webmaster

八月 2, 2025 - 11:04

0 0

GPT-5 的难产内幕

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《GPT-5难产内幕曝光：性能提升远低于预期，OpenAI靠新技术紧急救场，或下周发布》

最近关于GPT-5的猛料简直满天飞，奥特曼也公开谈体验，种种迹象表明这次真的要来了。

不过The Information今天曝光了GPT-5的更多内幕，被OpenAI视为迈向AGI关键一步的GPT-5，其实经历了一场不为人知的“难产”危机。

这场危机的核心，是一连串致命的打击：被寄予厚望的突然“智障”，核心项目宣告失败，顶级人才被竞争对手用重金挖走，技术路线一度摇摆。

与此同时，OpenAI现金流正以每分钟烧掉11万人民币的速度奔向枯竭。尽管年化收入已暴增至120亿美元，但面对2025年高达80亿美元的预期现金消耗，也急需GPT-5提振外界的信心。

GPT-5，已经不仅是一个技术产品，更是OpenAI的一场豪赌。APPSO今天就给你扒一扒就从这场惊心动魄的内幕。

一、GPT-5的难产内幕

今年上半年，一个名为o3的推理模型曾在OpenAI内部被封为“天才”。它是一个“教师模型”（teacher model），也就是最原始、未经过对话优化的版本。

通过投入海量的Nvidia H100算力，并赋予它实时搜索网络和代码库的能力，o3在理解复杂科学概念等领域取得了前所未有的突破。

内部测试结果让所有研究员都兴奋不已，他们似乎看到了通往AGI的康庄大道。

但当团队试图将这个“天才”教师模型，通过指令微调（SFT）和人类反馈强化学习（RLHF）等手段，转化为一个能与普通用户流畅对话的“学生模型”（student model）时，它的性能发生了灾难性的衰减，表现甚至还不如上一代的o1模型。

一位内部人士用了一个绝妙的比喻：“这就像你让爱因斯坦去参加小学语文考试，他满脑子都是相对论和量子力学，但你非要让他解释‘的、地、得’的用法。强迫它用人类的语言逻辑进行对话，无异于一种“降智打击”（dumbs down the raw，genius-level model）。”

我们现在偶尔看到ChatGPT在“深度思考”难题时，会先输出一堆看不懂的“胡言乱语”（gibberish），其实就是这种模型原始思维与人类语言冲突的冰山一角。

o3的失败，让OpenAI第一次意识到，AI的“智能”和人类的“沟通”之间，存在着一道巨大的鸿沟。

Orion项目流产与内外交困

o3的挫败并非孤例。更早之前，被内部寄予厚望、原计划成为GPT-5的Orion项目也遭遇了滑铁卢。该项目雄心勃勃，但在实际训练中始终无法产出超越GPT-4o的性能，最终在今年2月被无奈降级，以GPT-4.5的名义发布。

Orion失败的原因是多方面的：

高质量数据枯竭：互联网上能薅的羊毛快被薅秃了，高质量、未被污染的数据越来越难找。

规模化定律失灵：一些在小模型上效果拔群的训练技巧和调整方法，在将模型规模扩大到万亿参数级别后，突然就不起作用了，甚至会产生反效果。

奥特曼年初曾公布OpenAI的路线图更新

屋漏偏逢连夜雨。OpenAI内部，一些高级研究员强烈抵制将他们的核心发明拱手让给最大股东微软，尽管合同白纸黑字写着微软在2030年前拥有独家IP。

与此同时，财大气粗的竞争对手Meta以堪比“顶级球星”的薪酬，从OpenAI挖走了十多名核心研究员，直接导致一些关键项目团队重组，人心惶惶。

秘密武器“通用验证器”救场

就在研发陷入僵局，整个公司都笼罩在失败阴影下时，OpenAI亮出了他们的王牌：一个被称为“通用验证器”（universal verifier）的系统。

这个系统的核心思想，就是“用魔法打败魔法”。它能让一个大语言模型（LLM）扮演“考官”的角色，通过交叉引用网络信息、代码库和内部知识库，来自动检查和评判另一个“考生”模型的答案质量。

它的厉害之处在于，不仅能验证像编程、数学这类有明确对错答案的领域，还能通过复杂的评估标准，去判断创意写作、策略分析等主观性更强内容的质量。

这套基于强化学习（RL）的“AI教练”体系，有效地解决了人类标注员数量有限、水平不一的难题，为模型的持续优化提供了源源不断的、高质量的反馈数据。

正是这有了这个技术，才为GPT-5的开发扫清了最后的障碍。

二、最终的答案：一个模型家族

经历九死一生，根据目前爆料，GPT-5会是一个强大的模型家族，首次实现了推理能力和多模态交互能力的“大一统”，或许混乱的命名也能因此被解决。

GPT-5主模型(代号“nectarine”或“o3-alpha”)：全能型选手，据称在高级编程和物理问题上表现出色，甚至有zero-shot demo流出。

GPT-5 mini(代号“lobster”)：专为编程而生的小钢炮。有网友爆料，让它和另一个模型同时创建交互式神经网络动画，lobster一次性就生成了带彩色节点的完美方案，而另一个模型还在报错。

GPT-5 nano(代号“starfish”)：超轻量级选手，已经悄悄出现在大模型竞技场上。

如今，随着发布的临近，奥特曼又开始高调“画饼”，最近在采访直接提到GPT-5的体验：成功解答了一封邮件中他自己都没看懂的问题，让他感受到前所未有的“无能为力”，他甚至夸张地表示“那时我靠在椅子上，心里想：哇，这一刻终于来了……”

他甚至直言“感觉自己在AI面前简直无能为力”：

那本来是我觉得自己应该能搞定的问题，但我却做不到。这真的挺难受的。但AI就轻轻松松地完成了。那是一种很奇怪的感觉。

但这套说辞，网友们似乎已经免疫了，不少人吐槽：“刚发布时可能很惊艳，但一周后就会变笨，跟以前所有模型一个德行。”

“泼冷水大王”马库斯也照例发布了7条悲观预测，提醒大家GPT-5依然会犯低级错误、产生幻觉，离AGI还远着呢。

甚至有网友用AI脑补了GPT-5后用户对奥特曼的反应.

不管怎样，经历了无数次的“下周发布”和真假难辨的爆料后，现在用户的心情大概只剩下：

你的反应是什么？

喜欢 0

不喜欢 0

喜爱 0

有趣 0

愤怒 0

悲伤 0

哇 0

webmaster

相关帖子

多地“商转公”密集开闸，你的房贷能省多少？

多地“商转公”密集开闸，你的房贷能省多少？

webmaster 7月 6, 2025 0 0

跨国公司女高管转行按摩师：每个月只工作两周，月入10万

跨国公司女高管转行按摩师：每个月只工作两周，月入10万

webmaster 7月 6, 2025 0 0

入华26年，开店近8000家，曾经的小资代表星巴克，如今卖不动了？

入华26年，开店近8000家，曾经的小资代表星巴克，如今卖不...

webmaster 7月 6, 2025 0 0

美国成为中国AI人才跳板？

美国成为中国AI人才跳板？

webmaster 7月 6, 2025 0 0

想换城市的年轻人，第一步怎么走？

想换城市的年轻人，第一步怎么走？

webmaster 7月 5, 2025 0 0

特斯拉、英伟达机器人背后的“卖水人”

特斯拉、英伟达机器人背后的“卖水人”

webmaster 7月 5, 2025 0 1