深聊GPT-5发布:过度营销的反噬与AI技术困局
(来源:钛媒体APP)
GPT-5上线次日,OpenAl在一片用户的批评声中宣布向付费用户恢复 GPT-4o。
与GPT-3到GPT-4的惊艳跨越相比,GPT-5的发布略显匆忙:翻车的数据图表、带bug的代码演示、误导的“博士级”科学原理解释,以及作为核心技术更新的“Router”(路由器)也被硅谷AI从业者指出是已经存在好几年的技术。
从内部代号Q-Star到Orion项目的接连受挫,从数据匮乏到模型崩溃的技术困境,OpenAI正面临前所未有的挑战。
但不可否认的是,作为一款产品,GPT-5有着明显进步以及对用户交互的进一步优化。ChatGPT正打入更多垂类领域,朝着“AI超级应用”产品进发。而一场抢占市场份额、争夺企业订单的价格战,也在头部大模型公司之间正式开打。
本期文章,我们将深入聊聊GPT-5发布背后的技术困境、商业焦虑与未来趋势。
OpenAI为什么引发外界这么多的吐槽?GPT-5的开发过程遇到了哪些技术瓶颈,最终选择了什么架构来攻克?作为产品的ChatGPT,为什么选择进军教育、健康医疗和编程市场?
而更令人担忧的是,AI scaling law已经碰壁,强化学习、多模态能力和新架构范式能否为AI发展指明新的方向?
01 GPT-5发布会:漏洞百出,突破放缓
说实话,外界对GPT-5的发布非常期待。原因很简单:GPT-4发布已经是两年半之前的事情了,而外界已经等新一代模型很久了。
但总结来说,GPT-3到GPT-4的能力跨越太过惊艳——所谓的“ChatGPT Moment”。
这样的“Wow moment”(惊艳时刻)是这一轮生成式AI技术革命的基础,但GPT-4到GPT-5的能力跨越,却远没有达到外界的期待。
GPT-5发布了什么呢?
Chapter 1.1 业内推测GPT-5技术路线
首先,此前新闻爆料,GPT-5会成为一个“统一大模型”(unifying system),能强大地将推理、编码、语音、研究等能力整合进单一模型,实现“既要”和“又要”的用户需求,将GPT系列和o系列的模型融合,这个单一模态架构能自动调取相应的模型和能力,而不需要用户之后自己选择模型了。
虽然OpenAI目前还没有正式发布详细的GPT-5技术报告,但业内的技术专家们猜测,这其实不是一个端到端的超级大模型,而是由一个实时的“路由器”(Real-time Model Router)来“拼接”下面的不同子模型。
其实这个技术路线,不是创新也不是突破,早在硅谷初创技术圈里就存在很久了。
这种路由器的方案主要是一些初创公司在使用,大概有三个使用场景和原因:
第一,是在手机这样的设备端上,有端上的小模型,也有云端的大模型,简单的问题用本地模型,复杂的问题用云端模型,就需要有个路由器去帮你做选择。
第二,是初创公司们做模型层之上的开发和应用的时候,把所有开源和闭源模型聚合起来,把不同的任务给不同的模型来调用。
第三,是要去平衡系统的成本,比如说用户的一些高频又简单的提问,像“hello”和“thank you”这种query(查询)量非常大,光是这种简单的问题每天都在消耗OpenAI上百万美元的费用,所以这些典型问题都可以直接分发给非常小的模型去解决。
所以,这些是之前初创企业们因为要平衡系统成本,开发和应用时的主要三大使用场景,但如今被GPT-5作为主打技术突破,让外界不少人怀疑,一个端到端训练的超级大模型路线已经触顶。
而OpenAI不得不开始用这些“取巧”的技术来解决“产品层面”的问题,而不是AI大模型“智能飞跃”的问题,这是和外界的期待非常相悖的。
当然,实时路由器也没有那么好做,整合各种多模态也有很多技术上的挑战,这也可能是发布推迟的原因之一。
抛开这不是一个多么酷炫的技术不谈,说实话,单从用户角度来看,我本来觉得这点改进还挺好的。
因为之前的ChatGPT确实像个大杂烩:4o,o3,o4-mini,o4-mini-high,GPT-4.5,GPT-4.1,GPT-4.1-mini,旁边还有Codex,视频模型Sora,已经agent生态的GPTs……简直太乱了。
所以,如果GPT-5能自动为我挑选最适合的模型,其实在用户交互上是挺重要的。
但这里的关键词是:你得能选对,且效果得比之前好。
然而,当OpenAI取消此前自选模式,在社交媒体上用户们却开始集体抗议,很多人认为GPT-5没有4o的亲切感,效果甚至不如4o,并且用户有种被剥夺了选择权的感受,所以在X上,非常多用户集体呼吁“让4o回来,不然就注销ChatGPT账号。”
这也让OpenAI CEO Sam Altman不得不在周末之前回应,保证将上线更多定制化的功能和内容,并持续对GPT-5进行改进。
OpenAI在这次发布会中,一直在强调要给用户的不是“more information”“越多的信息不一定是越好的”,而是要给“just right”的信息,“刚刚好的、适合”的信息。
这个出发点看起来没有什么问题,但在技术上,怎么去定义“just right”,什么是“刚刚好”,还蛮有争议的。关于GPT-5的优化,我们也会继续关注。
接下来,我们再聊聊这次发布会上,OpenAI展示的三个应用场景:教育,健康医疗以及编程。
毫无疑问,这将是OpenAI进军商业化的主要三个战场。
Chapter 1.2 三大垂直应用场景
在发布会上,OpenAI展示了用多模态学习韩语的场景,效果确实看上去挺丝滑的:语音模型进一步升级,可以实时加快放慢,感觉会是非常好的教育交互场景。
GPT-5的玩法更加升级。你还可以让ChatGPT直接给你做个学法语的网页,或者小游戏应用,几分钟时间,记忆闪卡、单词测验、进度追踪等等功能应有尽有。
所以我们看到语言学习公司多邻国股价在GPT-5发布会期间就开始大幅度震荡,本来因为财报非常好出现盘中大涨,但OpenAI发布会之后开始一路狂跌,也是市场在质疑,ChatGPT在之后会抢夺多少教育市场的份额。
另外,OpenAI强调的市场蛋糕还有健康医疗领域。因为GPT-5号称有着博士级别的能力,所以在医疗健康领域,也能够对专业的癌症诊断报告做通俗易懂的解读。
在发布会中,OpenAI请到一名女性癌症患者,她分享到说,去年被诊断出癌症病情,收到的报告有许多医学术语,她让ChatGPT先帮助她厘清资讯,并与医生的评估进行比对,再做出关键决策。
而她也形容说,GPT-5更快速、更完整,在整个治疗过程中,让她觉得有了一个“伙伴”。
这一点我也感触蛮深的。医疗领域是一个医生和患者知识差距巨大的行业,因为这样的知识差距,导致了两者关系的不平衡,患者通常没有选择。
我最近身边有个好朋友进了重症监护室,陷入昏迷整整五天,她家人刚开始除了每天去医院求医生,感觉什么都做不了,但很快用上了AI,开始对病情和治疗方案各种学习和讨论,之后感觉和医生交流的时候障碍变小了很多,在做出一些关键决策的时候也心里更有底了。
我觉得这就是技术的光明面:赋予人们自主权。
而健康医疗行业占据美国GDP的18%左右,是巨大的市场,OpenAI不会放过这个市场。
同时,我们看到全球AI医疗市场也在井喷式发展。市场预测,全球AI医疗领域规模会从2024年的26.69亿美元飙升至2030年的188.38亿美元,年复合增长率高达38.62%。
包括OpenAI参与投资的、专注于利用AI减轻医疗专业人员行政负担的初创公司Ambience Healthcare最近C轮融资2.43亿美元,迈进独角兽行列。所以我们接下来会看到OpenAI在医疗健康领域的进一步动作。
另外一个GPT-5要打的核心商业战争,就是编程市场了。
无论是低提示词的非专业用户场景,还是专业编程场景,都展现出代码能力的强势升级。
同时,OpenAI来请到了最炙手可热的AI编程初创公司Cursor CEO到现场分享如何用GPT-5打造出最高效的编程体验。
这里能看出,自从Anthropic开启了Claude Code产品之后,AI coding初创公司就开始纷纷站队了。
之前OpenAI本来想买Windsurf没买成,我们之前也出了视频跟大家讲了这个狗血的收购大瓜,现在Cursor明显站队OpenAI一起来打Claude,这是一轮新的编程市场争夺战。
Chapter 1.3 错误百出的发布会
同时,这场发布会不得不吐槽的,就是现场出的各种bug了,让这场万众期待的发布会显得特别“草台班子”。
这个时候,OpenAI得感谢自己还没有上市,如果是谷歌的发布会出现这么多错误,可能股价早就蒸发上千亿美元了。
首先在发布会直播中,一张展示GPT-5在编程基准测试(SWE-bench)上性能的图表出现了严重错误,图上,代表GPT-5(52.8%准确率)的柱状图,其高度竟明显超过了代表旧模型o3(69.1%准确率)的柱状图。
另一款模型4o的柱状图与o3的水平位置一模一样,标注的数字却是30.8%。这个错误低级到不敢让人相信是OpenAI的发布会。
尽管OpenAI事后在官网上修正了图,Sam Altman也发文自嘲了,但这个图的火爆和出圈程度直接秒杀Sam Altman之前铺垫的任何营销努力。
而更严重的是,这显示出的不仅仅是匆忙和粗心,更是OpenAI团队试图在数据呈现上营造出的“巨大进步”的假象。
同时,Benchmark“分数打榜”这件事,也正变得更越来越不重要。
另外还有一个尴尬的细节:在演示过程中,GPT-5在解释“伯努利效应”时,错误地采用被主流物理学教材已经证伪的“等时通过理论”。
前一秒Sam Altman还在说,GPT-5是属于“博士级别”的AI,后一秒就直接自己打脸,还挺尴尬的。
这显示出,GPT-5完全没能识别过时的错误解释理论,让外界对这个新模型的理解和推理能力有了更多的质疑。
不过有一说一,在解释这个理论时自动产出高质量SVG动画与可交互代码还真的挺酷炫的(感觉对我们的视频后期之后会非常有用),也说明OpenAI的多模态生成能力确实还是很强的。
大概总结一下GPT-5发布的重点:GPT-5解决的都是产品层面的问题,并没有技术颠覆性的创新,这说明接下来一线大模型的技术差距也会进一步缩小,大家都用着差不多的方式在把模型能力艰难地往前推,不过就是:堆算力+堆数据+高质量数据筛选+后训练+推理时长+工具使用。
因此,我也看到一句话说OpenAI从“The One”变成了“One”,从“引领者”变成了前沿模型“之一”。
为什么GPT-5会这么拉胯?是不是LLM的发展路径真的已经碰壁了?
02 失败的“GPT-5们”,Transformer架构的发展瓶颈
GPT-5的训练从很早就开始了,但非常有意思的是,没有一个模型在OpenAI从第一天就被命名为GPT-5的。
OpenAI在推出GPT-4的时候,所谓的“下一代大模型”就已经在训练当中了,但如果这个模型不够好,不够“wow”到大家,那它就注定不能被叫做“GPT-5”。
比如说,在2023年年底就被曝出OpenAI内部代号为“Q Star”或者“Project Q”的项目,但这个模型后来被称为“o1”。
其实“O”系列模型还算成功,后来又更新了o3和o4-mini,但依然不能被称为GPT-5。为什么呢?
The Information在GPT-5发布之前出了一篇非常重磅的文章,爆料了OpenAI内部的这几次关键的GPT-5研发挫败。
其中在谈到o系列的时候说,这样的推理模型似乎帮助OpenAI克服了预训练阶段性能增长放缓的问题,而且2024年年底的o3母模型(也称为教师模型)在理解各种科学领域及其他领域方面,相比o1的母模型取得了显著的进步,当然这个进步也是因为OpenAI用上了更强的英伟达芯片服务器。
但奇怪的事情发生了,当OpenAI将o3母模型转换为能让人们提问的ChatGPT版本(也称为学生模型)时,效果出现了显著下降,甚至比o1表现好不了多少,同样的效果下降也出现在了API的模型版本中。
业界有猜测是因为基于人类自然语言的聊天产品形态拉低了模型的能力水平,限制了AI的发挥。
除此之外,在o3之后,OpenAI内部有一个代号为“Orion”的项目,在今年2月份推出,但也没有掀起什么水花,估计OpenAI对它的信心也不大,所以也没有把GPT-5的名字给它,而是叫了“GPT-4.5”。
同时,The Information的报道中说,2024年下半年,Orion没能成功的部分原因在于其预训练阶段的局限性。
同时,OpenAI还发现对Orion模型做的优化在模型较小的时候有效,但当模型规模增大时,这些优化就不再有效了——模型训练的不确定性仍然非常大,有很多的因素会导致模型训练的失败。
之前在硅谷101的播客录制中,我们的嘉宾Bill Zhu也跟我们分享了训练模型中会出现很多模型崩溃的情况,甚至可能会在强化学习过程中出现所谓的“灾难性遗忘”。
这样看来,以Transformer架构为基础的LLM模型发展,如今确实可能到了一个关键的时刻,或者需要一个完全不同的新架构来突破技术壁垒。
03 未来AI进化路径,强化学习、多模态、JEPA
接下来前沿的大模型该如何继续优化呢?我们跟身边的技术大牛聊了一圈,总结了三种方式:第一是强化学习,第二押注多模态能力提升带来的突破,而第三,是寻找其它的框架范式。
首先是强化学习路线(Reinforcement learning),简称RL,包括RL在预训练阶段的尝试。
Bill说的“验证”是RL中非常重要的关键,也是The Information爆料中,GPT-5在RL上的杀手锏。
报道说,OpenAI一直在开发一个被称为“universal verifier”(通用验证器)的技术:让一个大语言模型使用各种来源的研究,来检查和评估另一个模型的答案。它可以自动执行,确保模型在强化学习过程中生成高质量答案。
而接下来,需要各大模型公司去探索的第二条路,就是多模态。
就像前面我们说到的,大语言模型的维度是非常有限的,而多模态,以及世界模型将对接下来AI的发展至关重要。
而多模态之战确实在最近变得非常激烈,谷歌最近发布世界模型Genie 3,这在一些业内人士看来,重要性是要超过GPT-5的,我们《硅谷101》也在操作这个选题了,很快会放出来,所以大家记得关注我们的账号,不要错过更新哦。
此外,Bill提到的图灵奖得主Yann LeCun近年来提出的核心研究方向叫做Joint Embedding Predictive Architecture,简称JEPA,翻译过来是“联合嵌入预测架构”,旨在克服大语言模型的局限,推动AI理解物理世界。
04 GPT-5被过度营销反噬,但AI进化不会停止
最后还想说,这次GPT-5的翻车与Sam Altman之前过于浮夸的营销分不开。
在发布会之前,他在X上的各种预热还有用词,一会儿在他弟弟的播客上感叹自己“相对于AI毫无用处”,一会儿又在X上晒出与GPT-5的聊天截图,各种“暗示”,但又保持神秘,吊足了公众的胃口,把期待值拉得太高。
结果发布会出来,大家都愣了。所以,这次发布会的失利也是被视为“营销鬼才”的Sam Altman太过度营销的一次反噬。
总结一下,长期来看,到达AGI之前,我们可能还有很多工作要做,还有很多技术壁垒需要突破,而这些突破需要脚踏实地的研发和创新。
但很遗憾的是,在人类的技术进一步被推进之际,OpenAI等大模型公司却开始在商业化上变得非常激进,包括发布GPT-5之际正式开始打价格战,来圈地、圈市场份额。
这让不少人担心,会不会这次的GPT-5发布会意味着AI泡沫破灭的开始?AI大模型的进展是否会就此停止呢?
最后,虽然我们这个视频说了OpenAI和GPT-5这么多“坏话”,我个人其实还是非常喜欢这款产品,以及我是一个忠实用户,基本上工作、生活都离不开ChatGPT了。
这场发布会让我看到了ChatGPT朝着一个更好的AI全能super app的迈进。很多功能,在我看来,都将让我的生活和工作更加高效。
而看上去OpenAI还会继续优化GPT-5的各种性能,到时候我们也会为大家跟进AI发展,并进一步分析。