数据资源的效益分析:以Data-centric AI为场景
◇ 作者:中国经济信息社数据资产运营首席执行官 赵丽芳
安徽财经大学金融学院副院长、教授 李波
泰和泰(上海)律师事务所创始合伙人 王振华
◇ 本文原载《债券》2025年12月刊
摘 要
数据资源的效益分析一直是困扰数据要素市场参与主体的核心难题,也是数据资产化进程的最大障碍。首先,本文聚焦以数据为中心(Data-centric)的人工智能(AI)场景,分析输入型数据要素的特征,为数据资源效益分析奠定基础。其次,本文严格遵循价值导向原则,从工业和金融两大重要场景出发,结合AI赋能千行百业的理念,建议市场主体建立综合性、动态化的价值评价指标体系,对数据资源的效益进行量化分析。最后,本文将数据资源效益分析与数据资产化联通,综合分析了Data-centric AI场景下数据资源效益分析面临的合规难点,并提出相应对策。
关键词
数据资源 Data-centric AI 数据资产
人工智能(AI)产业正经历政策、技术与应用落地的三重共振,步入高速增长阶段。AI正从以模型为中心(Model-centric)向以数据为中心(Data-centric)转型,数据质量与规模成为AI发展的重要驱动力。与此同时,数据合规采购、数据质量与价值评估、数据资产管理也成为众多AI产业链中各类市场主体的核心关注点。本文以金融、工业需求场景为基础,结合全球AI商业模式的发展趋势,从数据资源的特征出发,探讨其多维度价值,一方面服务于Data-centric AI相关主体进行数据资产化路径实践,另一方面也为市场主体建立数据资源价值链管理模式提供参考。
Data-centric AI场景中数据资源的主要特征
深入理解数据资源的价值生成机制,需厘清其在Data-centric AI场景中的主要特征。这些特征不仅决定了数据的组织形式与供给方式,也直接影响后续的效益实现路径。
算法、算力和数据是AI技术发展的三大核心要素。随着算法性能差距逐渐缩小,以及以深度求索(DeepSeek)为代表的高效开源模型大幅降低训练和推理成本,训练数据的重要性显著提升。目前市场广泛认为数据尤其是高质量数据将成为驱动AI发展的关键因素。有学者认为,Data-centric AI是Model-centric AI发展到一定阶段后的演进形态。它以数据为中心进行AI开发与升级,强调数据的重要性,包括数据采集、标注和训练数据集与推理数据集的构建及后续维护等全流程。下文从物理属性、市场需求、发展趋势三个维度对Data-centric AI场景中的数据资源主要特征进行分析。
(一)以数据集为核心,兼有多模态
从物理属性维度来看,数据资源在Data-centric AI场景中呈现出多模态的显著特征。系统需要协同处理文本、图像、音频、视频等不同形式的数据,并满足跨模态生成、智能交互等复杂场景的需求。数据集产品是数据资源应用在AI领域主要输入形式。例如,上市公司海天瑞声在智能语音、计算机视觉、自然语言等方面储备上千个标准的训练数据集,服务于定制及标准的AI场景。上海市语料平台按照“1+X”整体架构搭建高质量大模型语料资源体系,包括一个多类型、多模态、多语种为基础的综合语料库,以及金融、工业、教育、交通等多个行业语料库。
(二)多主体、多场景、定制化
从市场需求维度来看,Data-centric AI场景的数据资源呈现出多主体、多场景、定制化的特点。多主体主要包含通用大模型、专用大模型、垂类小模型及智能体的需求方。其中,通用大模型需要大量多模态数据,专用大模型侧重企业或者机构自有数据和大小模型的结合及私域训练,垂类小模型和各类依赖场景的智能体很有可能成为未来企业端对于数据资源的核心需求。多场景和定制化相伴相生。以金融为例,智能投顾、信贷审核等AI应用均指向高度细分的场景,因而数据需求必然呈现定制化特点。
(三)高知识密度、高稀缺性
从发展趋势维度来看,高知识密度、高稀缺性逐渐成为AI输入数据集的特征。例如,具身智能大模型技术发展需要数据、算法、算力、系统等联合推动,上海市人民政府办公厅印发《上海市具身智能产业发展实施方案》,提出通过构建高质量具身数据集,开展大规模语料库建设,围绕具身智能的数据采集、应用场景构建、测试等全产业链条提供产业政策支持,以数据赋能模型,用场景带动技术,快速构建高稀缺属性的具身数据集,以支持具身智能产业发展。
综上,数据资源在Data-centric AI场景的特征可以归纳为“以数据集为核心,兼具多模态、场景化、定制化、高知识密度”的多元特征。这些数据资源如同“原油”或“燃料”,服务于大模型的开发,并最终在AI场景中应用并产生效益。数据生产要素具有易复制性、高可塑性、多主体性等特性,结合数据资源在AI场景中呈现出的复杂性与动态性,在实践中对数据资源开展成本效益分析面临较大挑战。
数据资源在Data-centric AI场景中的效益分析
数据资源效益分析既是数据资源商业模式的核心前提,也是数据资产化的关键基础,更是数据要素市场建设的主要推动力。无论是商业智能(BI)时代还是AI时代,数据具有较高价值已形成广泛共识,但如何进行效益分析仍面临一定的困难。下文尝试通过数据资源创造价值的场景分析,探讨市场主体如何定位数据资源效益分析的关键指标,并为AI场景的数据资产化提供理论支持。
(一)数据资源效益评价要求建立跟踪评价体系
大量企业在推进数字化转型的过程中,记录和存储了大量的过程数据。早期消费互联网和金融业最先从海量数据挖掘中受益,客户画像、精准营销、新产品推广、风险控制等都是表现形式。在AI时代,智能投顾通过自然对话提高响应速度,比人工投顾效率高,还能有效减少情绪化交易的频次。在传统常规审核流程中,风险识别全靠主观经验,人工审核效率低。而依托AI自然语言处理,通过关键词、规则的设置识别异常行为,可以全面提高风险管理能力。显然,数据资源的效益体现在其创造了间接的经济效益,如节约流程时间、减少人力投入、精准识别风险并采取预防措施等。市场主体可以通过核算数据采集及场景应用的全过程成本,在季度、半年度等工作周期内与历史成本进行对比,从而有效量化数据资源的经济效益。据此,建议企业构建模型化的评价指标,建立数据资源效益分析的跟踪评价体系。
(二)数据资源效益评价的指标体系应与业务逻辑深入嵌套
以工业应用为例,整车制造工厂大范围应用智能传感器和机器学习技术,实时抓取生产过程中表面缺陷、尺寸等关键质量参数,并由算法自动分析异常,从而将质检方式从人工抽检升级为全流程自动化,显著提升检测效率和准确性。过去,大型装备制造高度依靠“老师傅”凭借简易工具和个人经验进行判断。如今,通过数据资源采集与分析算法化、智能化,即便在人力资源紧张的情况下,设备生产商也能有效提高生产效率。短期内,工业领域数据采集的设备投入规模较大,而数据标准建立、数据分析等投入难以在短期见效,因此工业领域AI应用的效益评价通常具有长周期特征。此外,若研究人员不理解工业术语及运行原理,很难研究适用工业场景的垂类大模型或者工具,因此,在按年投入的周期内,建议工业领域的市场主体以“高危环境人员减少、人员投入减少、运维成本降低、生产总成本降低”等多维指标综合评价数据资源的效益,而非仅将采集设备和分析成本对标岗位工资。
(三)数据资源在Data-centric AI场景应用要充分考虑行业交互性
对通用大模型而言,数据资源的效益分析要综合考虑在一定时期内各行各业通过模型应用产生的经济价值和社会价值。例如,智能语音交互既有自动驾驶、智能家居的场景,也有政务服务、社区治理的社会场景。AI重塑千行百业已成为大势所趋,但商业智能时代遗留的部分问题在AI时代依然存在。如何评价数据资源在AI场景中的效益,既是传统行业数据资产化的重要挑战,也是推动大模型产业链上下游商业化面临的现实问题。以高效办成一件事为例,个人和法人数据通过融合汇聚并以节约政务服务时间、提高政务服务效率体现出社会效益,最终将通过人均工资水平与节约时间等可量化指标计算出对应经济价值。本文呼吁传统资产管理领域的研究人员充分研究数据生产要素的特性,结合应用场景中的量化分析方法,从多维度对数据资源在Data-centric AI场景中的价值进行评价,形成系统的数据资源价值评价体系,指导数据生产要素的定价与流通交易,为数字经济发展提供标尺。
基于数据资源效益分析的数据资产化路径
数据资源的效益分析是数据资产化的最大难点,而资产化本身又是数据被认定为生产要素的前提。下文将围绕数据资源效益分析的困境,揭示数据资产化路径的难点与对策。自2023年以来,产学研界逐步达成共识:数据资产化的主要载体是数据集、算法/模型及数据应用。数据集及算法/模型显然是AI的核心资产,市场广泛认为AI具有广阔的应用场景,AI赋能千行百业可以直接产生经济利益或者间接带来降本增效的好处。然而,要从会计视角确认Data-centric AI场景中的数据资产,仍需厘清数据资源的权属、评估数据经济效益及计量资产开发过程的必要成本,并同步建立适配的审计制度,实现数据资源规范化、体系化的管理。针对这一难点,下文提出一条可操作的数据资产化路径。
(一)解决合规引进问题
数据资源效益的合规引进面临重大挑战,这也是数据资产化的重大难题。很多大模型的技术厂商为了进行模型研发和技术升级,需要引进大量的数据资源,通常以自主采集、采购、交换等方式为主。由于模型所需数据集具有强专业性、定制化、场景化的特点,采购已成为大部分大模型厂商获取数据资源的主要方式。目前数据资源的引进面临以下三点挑战,需要主体建立高效的采购与审计协同制度来应对。
一是数据合规性。通用型数据集的版权问题与使用合规性、稀缺性数据源头采集方式与交付等,均是采购面临的首要难题,需求的快速增长与实际供给不足形成矛盾。市场头部机构会自行设计训练数据集结构,并进行自主采集和加工,但也有一些主体是购买基础数据资源后进行二次加工,基础数据集的使用合规性问题显著。可通过多层次引导,强化市场主体对数权的整体认知,在数据流转各核心流程中采取规范措施,确保从源头及流转过程中数权清晰稳定。同时,不断加强对版权、知识产权等相关权属登记制度的统一与完善。
二是寻源与比价。市场上同类型数据资源有限且定价不透明,加之大模型迭代速度很快导致数据资源需求日益增长,短期内能寻找到符合需求的数据资源已经很困难,更难以通过多家比价的方式进行合规采购。在满足短期需求与构建长期数据资源管理体系之间取得平衡面临巨大挑战。
三是数据质量,目前阶段数据基础设施依然缺乏,模型所需数据清洗、去重、质量评估等仍然高度依赖人工经验。如果是技术团队提出需求又负责质量评估,则难以保障采购合规性;如果依赖第三方做质量评估,则易脱离需求又拉长流程,显然目前缺乏很好的解决采购难题的办法。
(二)以数据知识产权方式探索可行路径
数据资源效益分析需要在顶层设计明确的基础上,以合规引进为保障条件,逐步在实践中探索出一条可行的路径。目前各地都在探讨以数据知识产权的方式保护自身在数据资源上的创新性投入。对于尚处研发阶段、迭代速度较快的模型类产品,相关实践操作依然面临较大困难,但对于资源持续投入而产品或者应用场景边界清晰的数据资产,这一路径对推动我国数据资产化战略进程有促进作用。
(三)促进数据要素价值释放
量化数据的价值是数据要素市场自建设以来一直困扰大众的难题,应从Data-centric AI场景中数据资源的特征分析入手,围绕AI应用场景数据资源效益分析命题,聚焦工业与金融两大核心产业,联通数据资源合规引进与数据资产化实践难点,促进Data-centric AI的健康发展。以数据资源的效益分析为保障,各类市场主体的数据资产化将更有效地反哺数据交易与流通,促进数据要素价值释放。