阿里发布Qwen3,成本仅为DeepSeek的1/3!CTO回应流量不重要
科技每日推送
作者 | 赵芷姗
编辑 | 汤安迪
每逢假期,AI大模型就要搞事情。
4月29日凌晨,阿里宣布开源新一代通义千问模型Qwen3系列,迅速在国内外引发热议。
此前春节期间,Qwen2.5-Max被爆火的DeepSeek-R1抢走风头;3月发布推理模型 QwQ-32B时又赶上Manus 同天发布,因此阿里大模型被网友戏称为“大模型界的汪峰”。
这次阿里险些又要撞上DeepSeek-R2发布,算是错开了正面交锋。
据晚点消息,在Qwen3发布后,阿里云CTO、通义实验室负责人周靖人正面回应了汪峰梗,表示某一天的流量其实没那么重要,真正重要的是前瞻性地思考,更笃定地坚持自己的技术路径和节奏。
看了Qwen3后,更加理解了阿里在大模型上的执着。
该系列共包含8款模型,2款参数30B、235B的混合专家模型和6款参数0.6B、1.7B、4B、8B、14B、32B的稠密模型,每款模型均获得同尺寸开源模型的最佳性能。
如果说第一代Qwen还只是个人畜无害的卡皮巴拉,Qwen3就可以说得上是肌肉猛男了。
Qwen3-235B-A22B总参数量为235B,激活仅需22B,只需4张H20显卡即可满血运行,成本大幅降低,仅为DeepSeek-R1的1/3。
此外,在奥数水平AIME25测试中,斩获81.5分;在编程测试LiveCodeBench中,斩获70.7分;在评估模型人类偏好对齐的ArenaHard测评中,斩获95.6分。
性能上已经全面超越了DeepSeek-R1、OpenAI-o1等顶级模型,登顶全球最强开源模型宝座。
即使是Qwen3-30B-A3B这样的小型模型,总参数30B,激活仅3B,是QwQ-32B的十分之一,但性能已经远远超越。
有网友将其称为:DeepSeek moment。
并且,Qwen3支持多种终端适配,0.6B版本可直接应用于本地测试及科研,4B版本可在手机端运行,8B版本可部署在电脑端或汽车端,14B/32B可在企业端部署落地。
连外国网友也忍不住惊呼它的便携性。
同时支持思考和非思考模式
语言覆盖至119种
此次Qwen3引入了混合推理架构,它同时支持思考模式和非思考模式,非思考模式即快速回答简单任务,不需要一长串的思考过程。
比如计算、天气、翻译等简单问题,更适合用非思考模式,节省时间。
在DeepSeek中,关掉深度思考按钮就意味着进入了非思考模式。
而Qwen3设置了一个思考预算,由你自己来控制思考的长度,灵活调节。
这种思考与非思考模式的结合,使得用户能够根据问题的复杂程度,来平衡模型的响应速度和回答质量。
这种改进也有效减少了算力消耗,对于成本控制更为明显。
同时,Qwen3支持119种语言及方言,包括粤语等,相比上一代Qwen2.5的50种语言覆盖,实现了翻倍超越。
这也使得Qwen3成为全球覆盖最广的开源多语言模型之一。
实测反馈
在实测Qwen3的过程中,网友反馈它在编程、数学、语言等能力上表现优越,并且表示它的表现让自己惊喜。
还有网友与同尺寸Llama模型进行了对比,称Qwen3推理更深入,能更快地解决更困难的问题。
当然,也有网友认为它幻觉仍然严重,回答问题牛头不对马嘴,胡编乱造。
Qwen团队负责人林俊旸在X上分享了一些开发过程中的细节,他称团队花了不少时间才找到一些办法来解决一些并不复杂的问题,比如如何平衡赖在不同领域的数据,如何在牺牲性能的情况下增加对多语言的支持等。
他表示下一步会更加专注现实世界的任务,扩展长视域推理。长视域推理简单来说就是处理更多步骤、更长时间跨度或者更复杂上下文关系的推理过程,它对模型性能要求更为严苛。
对于即将到来的DeepSeek-R2,Qwen3开了个好头,传闻DeepSeek-R2也将在五一前发布,届时又会带来怎样的惊喜,值得期待。