中国邮政储蓄银行副行长牛新庄：破局商业银行大模型规模化应用

导读：邮储银行紧扣国家“人工智能+”战略与金融高质量发展要求，依托智慧生态银行建设，系统布局金融大模型创新实践，破局规模化应用瓶颈，为行业提供实证参考，助推数字金融高质量发展。

作者|牛新庄‘中国邮政储蓄银行党委委员、副行长、首席信息官’

面向“十五五”规划周期，我国明确深入推进数字中国建设，全面实施“人工智能+”行动。以人工智能大模型为代表的新一代信息技术已成为推动银行数智化转型、赋能金融高质量发展的重要引擎。然而，大模型在赋能银行业务创新的同时，在大规模应用推广过程中面临诸多挑战，如基础模型金融专业知识不足、易形成模型孤岛，推理成本高昂、资源利用不均衡，模型上线周期长、难以兼顾基础能力的稳固与场景迭代的敏捷等。针对上述问题，邮储银行结合智慧生态银行建设，开展了一系列金融大模型创新实践。本文对相关工作进行总结，以期为商业银行大模型低成本、高效率、规模化落地提供理论与实践参考。

规模化之困：大模型金融落地的“三重矛盾”

在国家战略指引与银行自身发展需要的背景下，商业银行面临的核心命题已从“有没有模型”转变为“让模型低成本、高可靠、规模化地赋能业务”。这可能引发三重结构性矛盾：

通用能力与专业需求的矛盾——金融业务高度依赖机构内部的流程、规则以及外部的强监管框架，通用大模型虽具备强大的语义理解能力，但缺乏对银行内部知识、监管要求、复杂金融逻辑的深层认知，存在“懂语言、不懂业务”的能力断层。

统一与多样的矛盾——银行业务条线多且杂，采用“短平快”方式独立微调模型，极易形成“模型孤岛”，不利于统一管理，导致模型数量膨胀、技术栈割裂、运维复杂度剧增，易造成重复建设与资源浪费。

算力成本与规模推广的矛盾——大尺寸模型参数动辄千亿，客观造成推理延迟高、算力消耗巨大。随着场景扩展，部署成本呈指数级激增，难以支撑大规模推广。

专业进阶：模型双态演进与知识深度融合

尽管通用大模型在语义理解与生成上展现出惊人潜力，但在垂直行业的落地时却普遍遭遇“专业天花板”：一方面，通用模型缺乏深厚的行业认知，难以穿透复杂的业务逻辑；另一方面，金融机构对模型的可控性、合规性与推理成本有着近乎苛刻的要求，使得“通用”与“专用”之间存在着难以逾越的鸿沟。如何打破这一僵局？邮储银行认为，关键在于重塑模型演化的底层逻辑。邮储银行通过模型“双态演进”机制，探索出一条大模型落地新范式。

构建“双态分层演进”机制。模型“双态演进”机制的核心思想是分层解耦，将模型能力划分为“稳态层”和“敏态层”，实现底层稳固与上层敏捷的统一。稳态层解决“底座够不够稳、够不够省”的问题，而敏态层则聚焦于解决“业务够不够快、够不够专”的问题。金融基础模型构成模型矩阵中的“稳态层”，成为保障模型能力一致、可靠与合规的基石。金融基础模型结合银行行业属性，通过系统性重构与深度治理，形成具备金融专业认知和稳定服务能力的核心载体。面向领域与场景的垂域模型构成模型矩阵中的“敏态层”。敏态机制面向金融场景应用，分层沉淀、协同复用细分领域能力，支持快速扩展、动态协同。

建立“三阶段训练”创新范式。依托深度工程化实践，邮储银行创新性确立“三阶段训练范式”，开展模型架构优化，驱动金融垂类大模型向业务“好用”、轻量、敏捷、集约的方向优化。设计知识蒸馏、监督微调、强化学习三阶段融合的闭环训练流程：知识蒸馏是模型“降本增效”的核心，将大模型能力迁移至轻量化模型，对齐基础能力，支持以低推理成本保留专业性；监督微调通过高质量金融指令数据微调，注入金融术语、监管规则与业务逻辑，使模型具备“金融思维”；强化学习阶段在模拟的金融环境中强化复杂推理能力，优化数学计算、因果推断等核心场景表现，修正逻辑瑕疵，确保金融级稳定性。

搭建高质量金融数据支撑体系。针对高质量金融数据集不足、配比失衡与质量不可控难题，邮储银行采用了递进式数据集生成与数据集提纯技术。以“领域、任务、场景、人设”为主线，逐层细化扩展，构建全面、丰富且高度多样化的数据。采用分层分级的数据压缩与筛选方法，基于海量开源数据抽取构建高质量数据子集。

基于“双态演进”与模型增训调优，邮储银行在保留模型核心能力的前提下对模型尺寸进行大幅压缩，配合自主研发的数据集生成与提纯技术，提升模型金融场景支撑能力，实现了“小参数、强能力、低成本”的目标。

协同升级：分层矩阵建设与敏捷运营迭代

针对金融场景复杂多变、需求多样且碎片化的特点，邮储银行构建了分层模型矩阵，在兼顾高性能、低成本与强合规的基础上，实现算力资源与业务需求的精准适配。

建设分层模型矩阵体系。基础模型层负责语言理解、逻辑推理等底层通用能力。金融行业模型层沉淀金融领域共性能力，如金融知识理解、长文本处理、信息抽取等。领域模型层围绕客服、风控、安全、运营等具体方向进行专业增强。场景应用层结合具体业务需求，如智能客服、贷后报告等，通过轻量化适配快速落地。模型分层架构使得通用能力、领域能力与场景能力解耦，同类场景可共享统一的领域模型，不同模型之间也能基于统一的知识底座协同演进，从而大幅度降低训练与运维成本。

模型矩阵全生命周期循环运营。模型矩阵的建设与维护，推动模型研发从“项目化建设”向“平台化运营”转变。邮储银行构建覆盖模型全生命周期的统一运营管控体系，保障模型资产“看得清、管得住、用得好”。一是构建全流程持续监控机制，对模型推理性能、输出质量及算力资源消耗进行实时监测、动态调优。设计预警机制，在出现推理异常或性能瓶颈时及时介入，实现服务恢复，保障生产环境的高可用性。通过人机协作，及时处置异常，归因优化的同时记录负例数据。二是模型资产管理，构建覆盖模型全生命周期的评测评估体系，通过全流程量化反馈保障模型持续迭代。严格实施模型安全准入机制，杜绝未经安全评估的模型流入生产环境。三是模型飞轮演进，形成“数据采集、数据更新、模型优化、效果反馈”的增强回路，自演进闭环。数据回流反哺模型，实现“越用越聪明”。

目前，邮储银行已运营智能外呼、智能客服、风险管理等20余个场景的领域模型，并将持续迭代建设。

精益提效：模型池化共享与资源集约优化

为破解大模型算力消耗高、部署周期长、资源利用率低、落地成本高的规模化推广难题，邮储银行构建模型资源池，立足国产算力生态，搭建全栈协同工程体系，通过技术创新与机制优化，实现大模型集约化、低成本、高效率地规模化落地。

搭建模型池化共享运营体系。邮储银行建设平台工具体系，沉淀指标监控、任务管理、多层记忆管理等能力，构建统一的模型资源池与能力共享机制。基于池化策略，构建多任务、多领域的异构模型池，支持不同量级、不同形态的模型快速部署、弹性伸缩、动态路由。可根据请求复杂度与设备实时状态，实施智能分级分流，在保障服务质量的同时最大化算力能效。

构建高效基础底座，全栈协同优化。基于国产算力生态，邮储银行构建“算力—训推引擎—模型—平台”全栈协同架构，打造高性能、强可控的AI基础设施。邮储银行率先引入灵衢总线互联技术，采用潮汐调度、算力快切、弹性并行策略，大幅度提升资源利用率，提高集群吞吐量。整合vLLM开源引擎，建立算子性能闭环调优机制。采用缓存优化、连续批处理、参数高效微调等技术，降低端到端推理时延。特别是，针对GQA架构的大模型在长文本金融业务中面临的显存占用高、解码延迟大的缺陷，创新性采用免重训的方式将GQA架构转换至MLA架构，优化改进算法，降低Key/Value向量缓存的空间复杂度，缓解大模型推理阶段的KV存取压力，提升金融任务的表征能力与计算效率。

基于全栈工程优化与模型池化体系，邮储银行沉淀出可复制、可迭代的模型服务工艺。模型上线周期由2周缩短到1天，部署成本降低80%以上，集群总吞吐提升60%以上，系统端到端时延降低20%。

结语

邮储银行紧扣国家“人工智能+”战略与金融高质量发展要求，在金融大模型工程化落地领域开展系统性创新，确立“以通用大模型为基础、以金融知识为内核、以模型压缩为路径”的技术路线，提出大模型“双态演进”机制与分层治理架构，开展模型增训技术创新，通过架构重构与多阶段微调，在保留核心能力的同时压缩模型尺寸，降低推理成本。在此基础上，基于国产算力生态构建模型资源池，精细化模型运营，支持快速迭代与规模化推广。立足自身探索，邮储银行持续沉淀可复用的实践经验，以期为行业大模型研发迭代与规模应用提供务实可行的实证参考，加速推进智能技术与金融业务深度融合，助力做好数字金融“大文章”。

(本文作者介绍：权威、专业、理性、前沿，宣传金融政策、分析金融运行、报道金融实践)