【海外TMT】GPT-4o后续影响:推理端降本+多模态+低延迟带来AI应用转折点——OpenAI春季产品发布会点评(付天姿)
报告摘要
事件:
美国东部时间5月13日,OpenAI举办了2024年春季产品发布会,发布新的支持语音对话的多模态模型GPT-4o。GPT-4o 将会逐步在Chat Completions API、Assistants API、Batch API和ChatGPT服务中可用。
GPT-4o性能提升,API调用成本显著下降
1)多语种、多模态性能提升:GPT-4o在文本理解和代码生成能力上与GPT-4 Turbo相当,但在多语种支持、音频和视频理解能力上有了明显的增强。2)API调用价格下降一半:相比GPT-4 Turbo,GPT-4o每百万tokens输入价格从10美元下调至5美元,输出价格从30美元下调至15美元。3)多语种tokens消耗降低:GPT-4o在20种语言中使用了更高效的token生成器,中文tokens消耗降低30%。4)推理速度大幅提升:GPT-4o推理速度是GPT-4 Turbo的两倍,同时API速率限制提高至每分钟一千万tokens,为GPT-4 Turbo的五倍。
当前GPT-4o API调用存在一定的限制
1)无法基于GPT-4o训练定制化模型。2)上下文长度与GPT-4 Turbo一致,为128,000个tokens。3)训练数据截至23M10,相比GPT-4 Turbo的23M12数据时效性略有不足。4)仅支持无语音的每秒2-4帧视频输入,暂不支持语音输入,不支持图像生成功能。
GPT-4o多模态模型显著降低延迟
根据OpenAI官方博客,GPT-4o可以在最快232毫秒、平均320毫秒内响应音频输入,与人类对话的反应速度基本一致,相比GPT-4 Turbo的平均5.4秒响应时间提升明显。传统语音模型需要整合语音转录、文本处理、文本转语音三个模型,存在高延迟和信息丢失的问题。GPT-4o将文本、音频和视频整合成统一的多模态模型,以GPT-4级别的高性能进行实时对话。同时,GPT-4o的语音理解能力大幅提高,可以直接观察音调、多个扬声器或背景噪音,也可以输出笑声、歌声或表达情感。
GPT-4o展现出的低成本、低延迟特性将对整个行业产生连锁效应
1)推理端降本有望大幅提振应用端需求。当前GPT-4o已面向付费版用户和企业版用户开放,未来将免费向所有用户开放,验证推理端成本持续下降。AI应用的性价比提升将开辟更多商业化路径,推理成本降低有望带动应用端的飞轮效应。2)AI商业化竞争由模型端扩散至基础设施架构。GPT-4o低延迟背后受到模型性能、基础设施架构、网络延迟、数据处理方式等多种因素的影响。
风险提示:AI技术研发和产品迭代不及预期;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。
发布日期:2024-05-14