新浪科技

DeepSeek V4发布!硬刚ChatGPT 5.5!两种AI哲学背后是你不容错过的未来!

全球风口

关注

72小时,AI领域发生了一次超级对撞。

4月21日,OpenAI更新了ChatGPT的图像生成,代号GPT-image-2。4K分辨率、多语言文字渲染、思维链驱动生图,图像生成这回是真能干活了。

4月23日,OpenAI又放了一颗炸弹:GPT-5.5,代号"Spud"。

隔了一天,DeepSeek亮出了V4系列。两款MoE模型:V4-Pro(1.6万亿参数,49B激活)和V4-Flash(284B参数,仅13B激活)。

DeepSeek又一次演示了什么叫极致效率:百万token上下文,FLOPs只有上代V3.2的27%,KV cache压到了10%

三天时间,两家中美顶级AI初创撞到了一起,除了市场竞争,更是两种AI哲学的碰撞。

三件事,拆开说

先把信息量拉满,方便大家知道发生了啥。

OpenAI在4月21日上线的GPT-image-2模型,表面看是一次图像功能升级,但细看会发现野心不小:

4K原生分辨率,中文不再是乱码,海报和社交媒体素材可以直接AI出图,模型还会"先想构图逻辑再动手画",甚至能联网查资料

单拎出来看,每项都是不小的进步,放在一起,指向的东西就更大:OpenAI不想让图像生成继续当一个独立小工具,它要把这块能力融进GPT的整体闭环里

两天后的GPT-5.5发布,让上面这个判断彻底坐实了。

5.5的重点不在某个单项测试跑了多少分(虽然确实多数都超了5.4),重点在系统层面的任务执行

Deep Research这次能分步执行,自己完成多轮调研,一次对话里也能切代码、数据、文件不同任务。Codex也统一到了一个模型,直接在对话里理解代码库、修bug、写测试。

Sam Altman发布时说了句话,挺关键的:"GPT-5.5 is less about being smarter, and more about being useful."

不是更聪明,是更好用。全面对标竞争对手Anthropic转向 "AI时代的操作系统"

DeepSeek这边,V4的论文写了58页,技术细节极其扎实。不过一句话总结的话:

V4想证明的事情很简单,不用堆更多GPU,换个更聪明的架构AI性能同样可以提升。

几个核心数据:

  • V4-Pro:1.6万亿总参数,49B激活,支持100万token上下文

  • V4-Flash:284B总参数,只激活13B。消费级硬件跑得动

  • 100万token场景下,FLOPs只有V3.2的27%,KV cache只有10%

  • V4-Flash的13B激活参数,benchmark已经打赢了V3.2的37B激活。

算力砍掉三分之二,效果反而更好。

撑起这些成果的,是几个技术点,CSA + HCA混合注意力负责压长上下文成本,mHC解决深层网络信号衰减,Muon优化器让训练更快收敛,FP4量化感知训练则继续降低部署成本。

这部分已经有不少人专业解读,我们就不多说了。

两条路,两种逻辑

把三个发布摊开来看,表面是三个独立的产品更新。但仔细想想,底下跑着两套完全不同的逻辑。

OpenAI在干嘛?无论它还有没有AGI(通用人工智能)的梦想,它一定有个超级APP的野心。

GPT-5.5搞定知任务:推理、编程、分析、搜索、创作。Images 2.0搞定视觉生成。再加上语音、Sora做视频、Codex做代码执行……

OpenAI想把所有能力都塞进一个产品里:用户别管AI怎么工作的,说你要什么就行,ChatGPT全包了。

商业上看,这就是"超级App"的思路,一个入口解决一切。

DeepSeek呢?仍然在极致效率的道路上狂奔。

V4-Pro追求的是每个激活参数的产出最大化。V4-Flash追求的是最小计算预算下的最强效果。百万token上下文则是加量不加价,成本还要降到原来的十分之一。

DeepSeek的理念也很直接:AI真正普及,靠的不只是模型更强,是推理更便宜

打个比方的话,OpenAI在做"AI的Windows",功能拉满,什么都能干,但对硬件要求也高。DeepSeek更像"AI的Linux",精简高效,开源开放,能在更多地方跑起来。

被忽略的事:Images 2.0的真价值

回头说说OpenAI,不少人被Images 2.0更强的图片生成能力迷住,没有看到它真正的价值。

Image2.0其实是GPT-5.5多模态能力闭环里的一块关键拼图。

一个很简单的场景:你让GPT-5.5帮你做一份市场分析报告。它自己搜资料、整理数据、做分析,写到需要配图的地方,直接调Images 2.0生成数据可视化、概念图、信息图。

整个过程在一次对话里完成,你不用打开任何其他工具。

这才是"多模态闭环"真正值钱的地方。关键不在于"AI能画画了",在于AI在干活的过程中自己判断什么时候需要出图,出图也不只是配套,还能融入工作流之中

这件事为什么关键?很多工作卡住,并不是大家没有想法,是没法把想法表达出来。

你说“我们要做一场 AI 沙龙”,别人脑子里可能是酒店会议厅,也可能是路演发布会。

你说“用户反馈里有机会”,团队未必知道机会在哪。

你说“我想做一套 AI 提示词速查卡”,听起来像一句随口一说的点子。

现在你可以让 Image2 直接生成原型图,剩下的任务交个下一步的AI执行,你想想看是不是一切都不一样了?

以下是Tina用 Image2 制作产品推广图,接着让另一款AI产品生产的产品视频!

如果你想学会如何使用,迎观看周日的前哨AI小课。

那到底谁代表未来?

看到这儿,直觉可能是:OpenAI全面碾压,DeepSeek只是效率优化

没这么简单,我们必须看到 AI Agent是所有人都看好的大方向,那Agent到底需要什么?

第一,长上下文。 一个Agent执行复杂任务的时候,得记住完整的工具调用历史、中间结果、用户偏好、环境状态,V4的百万token,就是冲着这个场景去的。

第二,要便宜。 Agent不是用一次就关的东西,它要一直跑、一直想、一直花钱。V4-Flash的13B激活加上FP4量化,就是在压这个成本。

第三,工具调用。 V4搞了一个叫Interleaved Thinking(交织思考),每次工具返回结果后,模型先做一段内部推理,再决定下一步。

这跟GPT-5.5的"端到端任务执行"目标类似,但路径完全不同。

GPT-5.5靠的是系统级集成,内置搜索、内置代码执行、内置图像生成,开箱即用。V4靠的是开放的工具调用协议加交织推理,更适合定制化场景。

所以"谁赢了"这个问题本身就问错了。这不是零和游戏。

GPT-5.5为自己在普通用户上扳回一局,几乎不用犹豫,说你要什么就能干活,一定会迎来一些新用户。

开发者和企业选DeepSeek V4也有充足的理由:能自己部署、能定制、能控制成本。

两条路,解决不同的问题。

这次的AI进步你不可错过

回看这72小时,最让人在意的不是哪个具体的技术突破,是产业逻辑变了。

2024年比的是谁的模型大;2025年比的是谁的推理强;到了2026年,大家开始比谁能让AI真正被用起来

OpenAI把所有能力塞进一个产品,做超级应用;DeepSeek把最强的能力以最低的成本放出去,做基础设施。

两家的碰撞不止比胜负,更重要的是AI进步对传统技能、岗位、职业的颠覆

当 DeepSeek V4也加入Agent的大潮流,管理你的AI员工才是最重要的技能!

想要掌握最前沿的技术和方法吗?千万不要错过周日的前哨AI小课。

加载中...