AI 太烧钱!微软选择「倒戈」DeepSeek
leiphone_com
Claude、GPT 不再独占 Copilot。
作者丨樊天骄、郑佳美
编辑丨郑佳美
这两天,微软连续释放了两条重磅消息。
第一条来自产品层面。微软宣布 Copilot Cowork 在全球正式上线。这款能够跨 Outlook、Teams、Excel 等应用自主执行任务的 AI Agent 系统将正式商用。据微软披露,超过一半的《财富》500 强企业已经在预览期进行了部署。
第二条则来自商业模式层面。Copilot Cowork 将不再完全沿用每月 30 美元的固定订阅模式,而是开始引入按使用量计费机制。
几乎在同一时间,Axios 又披露了一则消息:微软正评估将 DeepSeek V4 引入 Copilot Cowork,作为低成本模型选项。如果最终落地,这将成为美国大型科技公司首次在核心企业级 AI 产品中引入中国大模型。
这两条消息似乎释放出一个信号,即Agent 的普及正在让 AI 的成本问题变得前所未有地突出。
过去的聊天机器人更像一次性服务。用户提问,模型回答,任务到此结束。而在 Agent 模式下,一个任务往往需要经历任务拆解、数据检索、工具调用、结果生成和反复修正等多个环节。用户看到的是一次任务交付,系统背后却可能已经完成了数十次甚至上百次模型调用。
当下的模型市场价格体系也在迅速拉开差距。从 Anthropic 高端模型每百万 Token 数十美元的推理成本,到 DeepSeek V4 Flash 每百万 Token 不足 0.3 美元,价格跨度已经达到数百倍。
当任务量持续增长、模型价格不断分化,企业需要解决的问题便不再是“选择哪个模型”,而是“什么任务应该使用什么模型”。模型路由、成本控制和资源调度,也因此开始从后台基础设施问题,走向 AI 产品竞争的核心位置。
01
算力成本为何激增
要理解微软此次架构重构的必要性,首先需要看到一个正在发生的变化:Agent 正在改变 AI 的成本结构。
在传统聊天式 AI 中,用户发起一次请求,系统返回一次响应。而固定订阅模式之所以能够成立,本质上依赖于一种成本平均主义:即少数重度用户所消耗的 token,会被大量低频用户的闲置额度所摊薄。雷峰网(公众号:雷峰网)
但 Agent 打破了这一平衡。以 Copilot Cowork 为代表的新一代 Agent 的工作模式已不再是单次问答工具,而是持续运行的任务执行系统。一次简单的“整理客户反馈并生成报告”,背后可能涉及任务拆解、企业数据检索、工具调用、内容生成与多轮修订等多个环节,对应数十次甚至上百次模型调用。
微软 Copilot 产品负责人 Aparna Chennapragada 透露,部分用户每周会让 Agent 执行数百项任务。在这种模式下,重度用户的算力消耗可以达到普通聊天用户的数百倍甚至上千倍。
而这种变化已经反映在真实生产数据中。Vercel AI Gateway 的统计显示,不足四分之一的请求包含工具调用,但却贡献了超过一半的 Token 消耗;与此同时,Agent 类请求的平均 Token 密度约为普通对话的 2.5 倍。换句话说,AI 成本不是均匀分布的,而是高度集中了在少数复杂任务之中。
除此之外,模型市场本身也在快速分层。雷峰网
高端模型价格持续攀升。Anthropic Fable 5 的定价达到输入 10 美元、输出 50 美元/百万 Token;而另一端,DeepSeek V4 Flash 的价格仅为输入 0.14 美元、输出 0.28 美元/百万 Token。整个市场的输出价格跨度已经达到约 180 倍,若按照部分场景价格计算,能力与成本之间的价差甚至超过 600 倍。
这意味着企业面对的已经不再是用贵模型还是便宜模型的问题,而是一条覆盖数百倍成本差异的能力光谱。如何让不同复杂度的任务匹配不同成本层级的模型成为了一个新的工程问题:
当算力成本从可预测变量演变为持续波动的结构性风险后,如何通过定价、路由和架构设计,让它重新回到可管理、可控制的范围之内。
02
350 倍价差,模型光谱如何生效
面对 Agent 带来的成本失控风险,微软进行了一次围绕计费、观测与调度的系统性重构。
最先被改变的是定价逻辑。在新的 Copilot Cowork 体系中,用户仍需支付 Microsoft 365 Copilot 的基础订阅费用,但 Agent 的额外消耗将按照实际资源使用情况单独计费。
微软将任务成本拆解为模型调用、上下文检索、工具使用和运行时长四个维度,并提供按需付费(PAYG)与预购套餐(P3)两种模式。通过基础订阅覆盖稳定需求,按量计费则对应 Agent 带来的增量消耗。
固定订阅模式的问题在于,由于价格统一,用户无法感知价格背后的资源消耗;而纯按量计费则会放大预算不确定性,增加企业采用门槛。当模型调用、工具使用和运行时长被拆解为可量化指标后,算力第一次从后台资源变成了可以被观察、管理和优化的经营成本。
但成本被看见之后,一个新的问题随之浮现:这些预算应该如何分配?
一端是 GPT、Claude 等高端模型持续突破能力边界,另一端则是 DeepSeek 等开源模型不断压缩推理成本。从旗舰模型到低成本模型,价格跨度达数百倍,但模型能力的差距却远没有价格差距那样夸张。
一味购入旗舰模型未必是一个盈利的选择,大量办公、检索和流程自动化这样的场景下,性能提升带来的边际收益,往往不足以支撑数倍甚至数十倍的成本增长。
微软推动模型分层路由,本质上正是在顺应这一变化。
对于复杂任务,系统调用 GPT 或 Claude 等旗舰模型;对于常规工作流,则优先使用 DeepSeek 或自研模型;而路由系统负责在质量、成本与响应速度之间寻找最优解。
这也是纳德拉近年来反复强调多模型生态的原因。Azure AI Foundry 已经集成 GPT、Claude、Gemini、DeepSeek 等多个模型体系,而即将推出的 Cowork 1,则进一步补全了微软在低成本办公场景中的能力布局。
从这个角度看,微软正在构建的并不是一个由单一模型驱动的 Agent 平台,而是一套面向 Agent 时代的智能调度系统。当模型能力逐渐趋同之后,竞争焦点也将随之转移:决定企业优势的,或许不再是谁拥有最强模型,而是谁能够以最低成本,将最合适的模型部署到最合适的任务之中。
03
降本后的质量问题
成本控制,只是第一步。降低成本后的质量问题才是这套体系稳定运行的关键。
对于任何企业级 AI 产品而言,降本的前提始终是质量能够满足实际业务需求。如果低成本模型无法完成工作,那么再低的价格也没有意义。所以,在将 DeepSeek V4 引入 Copilot Cowork 的同时,微软也在构建一套与成本控制并行的质量保障体系。
首先,对于微软来说 DeepSeek 并非默认模型,而是作为可选方案存在。对于高复杂度任务,企业仍然可以选择 Claude 等旗舰模型。这意味着微软并没有试图用低成本模型替代所有模型,而是在不同能力层级之间建立分工。
其次,DeepSeek V4 完全部署在 Azure 云环境中,数据始终留存在微软基础设施内部,受到企业级安全、合规与数据驻留策略保护。对于企业客户而言,这种托管方式的重要性不亚于模型能力本身。
更重要的是,微软针对企业场景进行了额外的安全对齐与偏见治理微调(fine-tuning with safeguards against bias),确保模型输出符合企业级应用标准。
这些措施背后反映出一个越来越清晰的行业判断:并非所有任务都需要最顶级的大模型能力。对于文档整理、信息检索、代码补全和流程自动化等高频办公场景而言,经过针对性优化的开源模型已经能够达到“足够好”的水平。而真正昂贵的旗舰模型,则被保留给复杂推理、关键决策以及高风险业务场景。
这也是 Cowork 1 的定位逻辑。微软将其描述为“post-trained to handle tasks at a substantially lower cost”,即通过后训练让模型以更低成本完成特定任务。
这其实是对大模型资源的重新配置:让针对办公场景优化的模型处理办公场景任务,让最昂贵的算力资源只服务于真正需要高阶智能的场景。
04
成本竞赛,正在取代模型竞赛
过去两年,大模型行业的主流叙事仍然是“模型能力竞赛”——谁更强、谁分数更高、谁率先突破能力边界;而到了 2026 年,竞争重心正在悄然转向另一条轨道:成本工程化能力。
微软对 Copilot Cowork 的重构之所以具有行业意义,在于它代表了一类大厂正在形成的共识:当 AI 从“可选工具”演化为持续运行的 Agent 系统后,企业必须同时管理三件事——模型能力、算力成本与系统调度能力。
从这一点看,微软所构建的路径,可能正在成为未来大厂的标准范式:通过定价机制让成本显性化,通过模型分层压缩平均推理成本,通过多模型生态分散供应链风险,再通过路由与抽象层实现系统级调度,使 AI 架构从“模型中心化”走向“系统工程化”。
这一趋势也已经开始在企业侧显现。AT&T、Meta、Uber、沃尔玛等公司正在逐步限制员工 AI 使用强度,从鼓励“最大化使用”转向主动控制 token 消耗。这更像是一种工业化阶段的必然结果——当成本曲线开始反向约束技术扩张时,工程能力就会取代模型能力,成为新的核心竞争力。
或许,从Tokenmaxxing到Tokenminimizing,AI 的下半场竞争不再是谁的模型更强,而是谁能够在可控成本下,持续释放更高的系统效能。
参考链接:
https://vercel.com/blog/ai-gateway-production-index-june-2026?
上车,带你看遍全球 AI 顶会精华
可独家畅览:
专家演讲PPT
大会报告全文
热门论文解读
学术新星访谈