【海外TMT】GPT-4o后续影响：推理端降本+多模态+低延迟带来AI应用转折点——OpenAI春季产品发布会点评（付天姿）

市场资讯 2024.05.15 07:03

报告摘要

事件：

美国东部时间5月13日，OpenAI举办了2024年春季产品发布会，发布新的支持语音对话的多模态模型GPT-4o。GPT-4o 将会逐步在Chat Completions API、Assistants API、Batch API和ChatGPT服务中可用。

GPT-4o性能提升，API调用成本显著下降

1）多语种、多模态性能提升：GPT-4o在文本理解和代码生成能力上与GPT-4 Turbo相当，但在多语种支持、音频和视频理解能力上有了明显的增强。2）API调用价格下降一半：相比GPT-4 Turbo，GPT-4o每百万tokens输入价格从10美元下调至5美元，输出价格从30美元下调至15美元。3）多语种tokens消耗降低：GPT-4o在20种语言中使用了更高效的token生成器，中文tokens消耗降低30%。4）推理速度大幅提升：GPT-4o推理速度是GPT-4 Turbo的两倍，同时API速率限制提高至每分钟一千万tokens，为GPT-4 Turbo的五倍。

当前GPT-4o API调用存在一定的限制

1）无法基于GPT-4o训练定制化模型。2）上下文长度与GPT-4 Turbo一致，为128,000个tokens。3）训练数据截至23M10，相比GPT-4 Turbo的23M12数据时效性略有不足。4）仅支持无语音的每秒2-4帧视频输入，暂不支持语音输入，不支持图像生成功能。

GPT-4o多模态模型显著降低延迟

根据OpenAI官方博客，GPT-4o可以在最快232毫秒、平均320毫秒内响应音频输入，与人类对话的反应速度基本一致，相比GPT-4 Turbo的平均5.4秒响应时间提升明显。传统语音模型需要整合语音转录、文本处理、文本转语音三个模型，存在高延迟和信息丢失的问题。GPT-4o将文本、音频和视频整合成统一的多模态模型，以GPT-4级别的高性能进行实时对话。同时，GPT-4o的语音理解能力大幅提高，可以直接观察音调、多个扬声器或背景噪音，也可以输出笑声、歌声或表达情感。

GPT-4o展现出的低成本、低延迟特性将对整个行业产生连锁效应

1）推理端降本有望大幅提振应用端需求。当前GPT-4o已面向付费版用户和企业版用户开放，未来将免费向所有用户开放，验证推理端成本持续下降。AI应用的性价比提升将开辟更多商业化路径，推理成本降低有望带动应用端的飞轮效应。2）AI商业化竞争由模型端扩散至基础设施架构。GPT-4o低延迟背后受到模型性能、基础设施架构、网络延迟、数据处理方式等多种因素的影响。

风险提示：AI技术研发和产品迭代不及预期；AI行业竞争加剧风险；商业化进展不及预期风险；国内外政策风险。

发布日期：2024-05-14