微软发布三款全新AI模型，正面抗衡OpenAI与谷歌

环球市场播报

04.0222:40

关注

微软周三推出三款完全自主研发的全新基础人工智能模型，分别为顶尖语音转写系统、语音生成引擎及升级款图像创作模型。此举成为这家市值三万亿美元软件巨头迄今最明确的信号：其计划在模型研发层面，而非仅在分发领域，直接与OpenAI、谷歌及其他前沿实验室展开竞争。

三款模型分别为MAI-Transcribe-1、MAI-Voice-1与MAI-Image-2，现已通过微软模型开发平台及全新MAI试用专区开放使用。它们覆盖企业人工智能领域三大商业价值极高的模态：语音转文字、生成逼真自然人声以及创作图像。这三款模型，是苏莱曼六个月前组建的超级智能团队打响的第一枪，该团队成立初衷，是实现他口中的“人工智能自主自研”。

苏莱曼在新品发布前接受采访时表示：“首批模型现已落地，其转写能力达到全球顶尖水准。不仅如此，我们运行该模型所需显卡算力，仅为行业同类顶尖产品的一半。”

此次发布恰逢微软处境微妙之时。该公司股价刚创下2008年金融危机以来最差季度收盘表现，投资者愈发要求企业拿出证据，证明数千亿美元的人工智能基建投入能够转化为实际营收。此次发布的三款模型定价极具竞争力，还能降低微软自身营业成本，正是苏莱曼应对外界压力的首轮答卷。

微软全新转写模型宣称25种语言准确率业界领先

MAI-Transcribe-1是本次发布的核心产品。这款语音转文字模型，在行业通用多语言评测基准FLEURS中，针对微软产品使用率最高的25种主流语言，实现了最低平均字词错误率，均值仅3.8%。微软自测数据显示，该模型在全部25种语言中均优于OpenAI的大型语音模型Whisper第三代；在22种语言中超越谷歌Gemini 3.1极速版；对比Eleven Labs的文本转写二代模型与OpenAI智能转写模型，也有15种语言实现性能领先。

该模型搭载基于变换器架构的文本解码器与双向音频编码器，支持最高200兆字节的MP3、WAV、FLAC格式文件。微软称其批量转写速度，是现有微软Azure高速转写服务的2.5倍。语音角色区分、场景偏向优化及实时流式转写功能即将上线。目前微软已在Copilot语音模式与微软团队协作软件中测试该模型，用于对话内容转写，这一细节体现出企业计划快速替换第三方及老旧自研模型的决心。

同期推出的MAI-Voice-1为文本转语音模型，每秒可生成60秒自然流畅音频。该模型能在长篇内容中保持音色统一，依托微软模型开发平台，仅需几秒音频素材即可定制专属音色，定价为每百万字符22美元。而MAI-Image-2一经上线便跻身Arena.ai榜单前三梯队，在模型开发平台与Copilot中的生成速度，较前代提升至少一倍，现已全面接入必应搜索与幻灯片软件，文本输入定价每百万令牌5美元，图像输出定价每百万令牌33美元。全球顶级广告集团WPP，成为首批大规模落地应用该图像模型的企业合作伙伴。

与OpenAI重新签约，扫清自研模型障碍

理解这批模型的战略意义，需先看懂背后关键的合约调整。2025年10月之前，合约条款限制微软独立研发通用人工智能。2019年微软与OpenAI签署原始协议，微软为其搭建云计算底座，以此换取OpenAI模型授权。但后续OpenAI携手软银等企业拓展算力合作，微软随即启动合约重谈。苏莱曼在2025年12月接受采访时坦言，修订前的协议明确规定：直至数月前，微软受合约约束，不得独立研发通用人工智能与超级智能技术。新版合约解除了相关限制，微软可自主打造前沿模型，同时保留2032年前OpenAI所有自研成果的授权使用权。

苏莱曼称：“去年九月，我们完成与OpenAI的合约修订，自此获得独立研发超级智能的权限。此后，我们全力整合算力、组建团队、采购训练所需数据。”

他同时强调双方合作并未动摇：“与OpenAI的合作一切照旧，合作期限至少延续至2032年，长远合作意愿不变，对方始终是优质合作伙伴。”此外，微软还通过自研平台开放Anthropic旗下Claude模型接入权限，打造全品类模型聚合平台。但核心意图显而易见：微软正构建完全自主的技术能力。据商业内幕网站三月独家报道，苏莱曼曾在内部备忘录中明确，未来五年核心目标是集中资源攻坚超级智能项目，落地世界级自研模型。美国消费者新闻与商业频道补充称，此次架构调整让苏莱曼脱离Copilot日常产品管理，原Snap高管雅各布・安德烈乌接任消费与商用Copilot业务首席高管。

十人小团队，打造比肩科技巨头的顶尖模型

苏莱曼透露的最亮眼细节，莫过于研发团队的精简规模。他表示：“音频模型仅由十人团队打造，性能提速、效率优化与精度提升，全部依托自研模型架构与专属训练数据实现。我始终主张精简精英团队、充分放权赋能，因此我们采用极致扁平化管理。图像模型研发团队同样不足十人。核心竞争力完全源于模型架构创新与优质数据打磨，最终实现顶尖性能。”

这一模式具备双重突破意义。其一，打破行业固有认知：前沿人工智能研发无需数千名研究员与巨额人力成本。反观Meta，正如苏莱曼此前受访所言，其奉行大规模扩招策略，顶尖研究员薪酬甚至高达一亿至两亿美元。其二，精简团队大幅优化盈利逻辑：微软仅靠十名工程师，就能打造算力减半、精度领先的转写模型，其人工智能业务盈利结构，与烧钱冲数据的竞品形成本质差异。

精简理念也印证了苏莱曼对人工智能行业变革的判断。谈及团队办公模式，他形容团队氛围更像初创交易室，而非传统微软研发部门：“大家围坐圆桌办公，不用固定工位，全员配备笔记本电脑而非大屏设备，几十人共处一室，全天协同编程、同步攻坚。”

主打人文智能，精准对接企业客户需求

苏莱曼持续为微软人工智能赋予专属理念，即“人文智能”。该理念不仅写入新品发布博文，也在专访中详细阐释：“人文超级智能的核心，是让技术真正服务人类。人类始终掌握最终主导权，所有技术研发都坚守以人为本的核心准则。”

这套理念多重赋能：既区别于OpenAI、Meta激进推进技术迭代的主张，也契合合规监管严格行业的企业采购需求，为安全治理与合规审查提供保障；同时构筑风险缓冲，若行业出现技术安全隐患，微软可依托人文理念强调可控性。去年十二月采访中，苏莱曼进一步将安全管控与价值对齐定为不可突破红线，明确超级智能技术必须确认可控后，才可对外落地。

他还将数据溯源视为核心竞争力，透露曾与首席执行官纳德拉沟通，全力搭建“数据源纯净合规的自研模型体系”。他隐晦对比开源竞品，直言部分开源模型训练数据存在合规隐患，暗藏安全风险。当前全行业版权诉讼频发，对企业采购方而言，微软若能证实训练数据授权合规，将大幅降低企业落地模型的法律风险与声誉隐患。

定价激进，施压亚马逊、谷歌及初创AI企业

本次新品发布实现三线同步竞争：语音转写模型直面OpenAI开源语音模型的垄断地位，25种基准语言精度全面占优；22种主流语言性能超越谷歌极速版模型，直击谷歌全域推广自研大模型的布局；语音复刻模型依托几秒素材即可生成高仿真语音，实时生成效率达六十倍，直接对标Eleven Labs等语音赛道初创企业。叠加微软生态分发优势，开发者可通过现有通用接口一键调用三款自研模型，与GPT、Claude接口互通，构筑坚固行业壁垒。

苏莱曼直言企业已跻身全球顶尖三大研发梯队，仅次于OpenAI与谷歌。定价策略更是精准卡位：语音模型、图像模型定价全面对标低价云厂商，力争低于亚马逊、谷歌同类服务。

该策略贴合微软优势，依托庞大企业客户基数摊薄研发成本，同时回应资本市场核心疑问：人工智能投入何时变现。今年微软股价年内跌幅约17%，身处科技股普跌行情。自研模型算力减半，既降低办公协作软件、智能助手、必应搜索等内部产品的算力成本，又能以低价抢占开发者市场。苏莱曼在三月备忘录中提及，这批模型将大幅优化企业营业成本，支撑未来超大规模人工智能算力部署，三款新品正是该承诺的首批落地成果。

前瞻布局通用大模型，迈向完全技术自主

苏莱曼明确表示，语音、图像模型仅是开端。被问及是否研发对标顶尖通用大模型时，他态度坚决：“我们必将打造全模态顶尖自研模型。核心目标是实现完全自主可控，按需提供最高能效、最低成本的顶尖技术。”

企业已制定多年路线图，规划搭建超大规模算力集群。超级智能团队2025年10月正式组建，目前全员定期线下集中攻坚。苏莱曼此次专访地点位于迈阿密，正是团队年度集训现场，首席执行官纳德拉专程参会，敲定未来三至四年人工智能自主自研全流程规划与算力部署方案。

通用顶尖大模型的研发难度、数据体量与算力成本，远超本次发布的专项模型。现有新品聚焦音频、图像专项能力，并不具备通用对话模型的复杂推理与文本生成能力。当前苏莱曼手握组织权限、高管背书与合约自由，唯一待验证的，是攻克人工智能核心难题的落地能力。

但现有成果已极具含金量：三款细分领域顶尖模型，由小型精英团队打造，算力需求仅为行业标准一半，定价低于主流云厂商。两年前苏莱曼曾提出全新图灵测试标准：人工智能无需伪装人类对话，而是能在低干预前提下完成真实商业任务。如今这批新品，正是朝着该愿景迈出关键一步。未来核心悬念，落在微软超级智能团队能否复刻现有成功、冲刺通用大模型巅峰，且赶在市场耐心耗尽之前。