新浪财经 美股

微软发布三款全新AI模型,正面抗衡OpenAI与谷歌

环球市场播报

关注

微软周三推出三款完全自主研发的全新基础人工智能模型,分别为顶尖语音转写系统、语音生成引擎及升级款图像创作模型。此举成为这家市值三万亿美元软件巨头迄今最明确的信号:其计划在模型研发层面,而非仅在分发领域,直接与OpenAI、谷歌及其他前沿实验室展开竞争。

三款模型分别为MAI-Transcribe-1、MAI-Voice-1与MAI-Image-2,现已通过微软模型开发平台及全新MAI试用专区开放使用。它们覆盖企业人工智能领域三大商业价值极高的模态:语音转文字、生成逼真自然人声以及创作图像。这三款模型,是苏莱曼六个月前组建的超级智能团队打响的第一枪,该团队成立初衷,是实现他口中的“人工智能自主自研”。

苏莱曼在新品发布前接受采访时表示:“首批模型现已落地,其转写能力达到全球顶尖水准。不仅如此,我们运行该模型所需显卡算力,仅为行业同类顶尖产品的一半。”

此次发布恰逢微软处境微妙之时。该公司股价刚创下2008年金融危机以来最差季度收盘表现,投资者愈发要求企业拿出证据,证明数千亿美元的人工智能基建投入能够转化为实际营收。此次发布的三款模型定价极具竞争力,还能降低微软自身营业成本,正是苏莱曼应对外界压力的首轮答卷。

微软全新转写模型宣称25种语言准确率业界领先

MAI-Transcribe-1是本次发布的核心产品。这款语音转文字模型,在行业通用多语言评测基准FLEURS中,针对微软产品使用率最高的25种主流语言,实现了最低平均字词错误率,均值仅3.8%。微软自测数据显示,该模型在全部25种语言中均优于OpenAI的大型语音模型Whisper第三代;在22种语言中超越谷歌Gemini 3.1极速版;对比Eleven Labs的文本转写二代模型与OpenAI智能转写模型,也有15种语言实现性能领先。

该模型搭载基于变换器架构的文本解码器与双向音频编码器,支持最高200兆字节的MP3、WAV、FLAC格式文件。微软称其批量转写速度,是现有微软Azure高速转写服务的2.5倍。语音角色区分、场景偏向优化及实时流式转写功能即将上线。目前微软已在Copilot语音模式与微软团队协作软件中测试该模型,用于对话内容转写,这一细节体现出企业计划快速替换第三方及老旧自研模型的决心。

同期推出的MAI-Voice-1为文本转语音模型,每秒可生成60秒自然流畅音频。该模型能在长篇内容中保持音色统一,依托微软模型开发平台,仅需几秒音频素材即可定制专属音色,定价为每百万字符22美元。而MAI-Image-2一经上线便跻身Arena.ai榜单前三梯队,在模型开发平台与Copilot中的生成速度,较前代提升至少一倍,现已全面接入必应搜索与幻灯片软件,文本输入定价每百万令牌5美元,图像输出定价每百万令牌33美元。全球顶级广告集团WPP,成为首批大规模落地应用该图像模型的企业合作伙伴。

与OpenAI重新签约,扫清自研模型障碍

理解这批模型的战略意义,需先看懂背后关键的合约调整。2025年10月之前,合约条款限制微软独立研发通用人工智能。2019年微软与OpenAI签署原始协议,微软为其搭建云计算底座,以此换取OpenAI模型授权。但后续OpenAI携手软银等企业拓展算力合作,微软随即启动合约重谈。苏莱曼在2025年12月接受采访时坦言,修订前的协议明确规定:直至数月前,微软受合约约束,不得独立研发通用人工智能与超级智能技术。新版合约解除了相关限制,微软可自主打造前沿模型,同时保留2032年前OpenAI所有自研成果的授权使用权。

苏莱曼称:“去年九月,我们完成与OpenAI的合约修订,自此获得独立研发超级智能的权限。此后,我们全力整合算力、组建团队、采购训练所需数据。”

他同时强调双方合作并未动摇:“与OpenAI的合作一切照旧,合作期限至少延续至2032年,长远合作意愿不变,对方始终是优质合作伙伴。”此外,微软还通过自研平台开放Anthropic旗下Claude模型接入权限,打造全品类模型聚合平台。但核心意图显而易见:微软正构建完全自主的技术能力。据商业内幕网站三月独家报道,苏莱曼曾在内部备忘录中明确,未来五年核心目标是集中资源攻坚超级智能项目,落地世界级自研模型。美国消费者新闻与商业频道补充称,此次架构调整让苏莱曼脱离Copilot日常产品管理,原Snap高管雅各布・安德烈乌接任消费与商用Copilot业务首席高管。

十人小团队,打造比肩科技巨头的顶尖模型

苏莱曼透露的最亮眼细节,莫过于研发团队的精简规模。他表示:“音频模型仅由十人团队打造,性能提速、效率优化与精度提升,全部依托自研模型架构与专属训练数据实现。我始终主张精简精英团队、充分放权赋能,因此我们采用极致扁平化管理。图像模型研发团队同样不足十人。核心竞争力完全源于模型架构创新与优质数据打磨,最终实现顶尖性能。”

这一模式具备双重突破意义。其一,打破行业固有认知:前沿人工智能研发无需数千名研究员与巨额人力成本。反观Meta,正如苏莱曼此前受访所言,其奉行大规模扩招策略,顶尖研究员薪酬甚至高达一亿至两亿美元。其二,精简团队大幅优化盈利逻辑:微软仅靠十名工程师,就能打造算力减半、精度领先的转写模型,其人工智能业务盈利结构,与烧钱冲数据的竞品形成本质差异。

精简理念也印证了苏莱曼对人工智能行业变革的判断。谈及团队办公模式,他形容团队氛围更像初创交易室,而非传统微软研发部门:“大家围坐圆桌办公,不用固定工位,全员配备笔记本电脑而非大屏设备,几十人共处一室,全天协同编程、同步攻坚。”

主打人文智能,精准对接企业客户需求

苏莱曼持续为微软人工智能赋予专属理念,即“人文智能”。该理念不仅写入新品发布博文,也在专访中详细阐释:“人文超级智能的核心,是让技术真正服务人类。人类始终掌握最终主导权,所有技术研发都坚守以人为本的核心准则。”

这套理念多重赋能:既区别于OpenAI、Meta激进推进技术迭代的主张,也契合合规监管严格行业的企业采购需求,为安全治理与合规审查提供保障;同时构筑风险缓冲,若行业出现技术安全隐患,微软可依托人文理念强调可控性。去年十二月采访中,苏莱曼进一步将安全管控与价值对齐定为不可突破红线,明确超级智能技术必须确认可控后,才可对外落地。

他还将数据溯源视为核心竞争力,透露曾与首席执行官纳德拉沟通,全力搭建“数据源纯净合规的自研模型体系”。他隐晦对比开源竞品,直言部分开源模型训练数据存在合规隐患,暗藏安全风险。当前全行业版权诉讼频发,对企业采购方而言,微软若能证实训练数据授权合规,将大幅降低企业落地模型的法律风险与声誉隐患。

定价激进,施压亚马逊、谷歌及初创AI企业

本次新品发布实现三线同步竞争:语音转写模型直面OpenAI开源语音模型的垄断地位,25种基准语言精度全面占优;22种主流语言性能超越谷歌极速版模型,直击谷歌全域推广自研大模型的布局;语音复刻模型依托几秒素材即可生成高仿真语音,实时生成效率达六十倍,直接对标Eleven Labs等语音赛道初创企业。叠加微软生态分发优势,开发者可通过现有通用接口一键调用三款自研模型,与GPT、Claude接口互通,构筑坚固行业壁垒。

苏莱曼直言企业已跻身全球顶尖三大研发梯队,仅次于OpenAI与谷歌。定价策略更是精准卡位:语音模型、图像模型定价全面对标低价云厂商,力争低于亚马逊、谷歌同类服务。

该策略贴合微软优势,依托庞大企业客户基数摊薄研发成本,同时回应资本市场核心疑问:人工智能投入何时变现。今年微软股价年内跌幅约17%,身处科技股普跌行情。自研模型算力减半,既降低办公协作软件、智能助手、必应搜索等内部产品的算力成本,又能以低价抢占开发者市场。苏莱曼在三月备忘录中提及,这批模型将大幅优化企业营业成本,支撑未来超大规模人工智能算力部署,三款新品正是该承诺的首批落地成果。

前瞻布局通用大模型,迈向完全技术自主

苏莱曼明确表示,语音、图像模型仅是开端。被问及是否研发对标顶尖通用大模型时,他态度坚决:“我们必将打造全模态顶尖自研模型。核心目标是实现完全自主可控,按需提供最高能效、最低成本的顶尖技术。”

企业已制定多年路线图,规划搭建超大规模算力集群。超级智能团队2025年10月正式组建,目前全员定期线下集中攻坚。苏莱曼此次专访地点位于迈阿密,正是团队年度集训现场,首席执行官纳德拉专程参会,敲定未来三至四年人工智能自主自研全流程规划与算力部署方案。

通用顶尖大模型的研发难度、数据体量与算力成本,远超本次发布的专项模型。现有新品聚焦音频、图像专项能力,并不具备通用对话模型的复杂推理与文本生成能力。当前苏莱曼手握组织权限、高管背书与合约自由,唯一待验证的,是攻克人工智能核心难题的落地能力。

但现有成果已极具含金量:三款细分领域顶尖模型,由小型精英团队打造,算力需求仅为行业标准一半,定价低于主流云厂商。两年前苏莱曼曾提出全新图灵测试标准:人工智能无需伪装人类对话,而是能在低干预前提下完成真实商业任务。如今这批新品,正是朝着该愿景迈出关键一步。未来核心悬念,落在微软超级智能团队能否复刻现有成功、冲刺通用大模型巅峰,且赶在市场耐心耗尽之前。

加载中...