新浪财经 股票

我国将构建可定价的数据价值体系

市场资讯 06.09 00:23

(来源:北京商报)

6月8日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),其中提出,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。值得关注的是,《实施方案》提出,探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系。

聚焦重点领域及创新赛道

《实施方案》明确,行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。

《实施方案》提出,聚焦国民经济发展重点行业和战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

其中,《实施方案》提出,顺应人工智能加速向行业渗透,从对话向多模态生成、决策执行、具身智能、物理交互等范式跃迁的趋势,拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为人工智能发展和应用提供充足“燃料”。

同时,《实施方案》明确,聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。

《实施方案》还提到,面向人工智能应用需求丰富行业高质量数据集建设形态。持续推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设,赋能人工智能预训练、指令微调、强化学习、测评等各阶段。

培育一批数据标注龙头企业

数据标注是将知识和经验注入到训练数据的过程,是行业高质量数据集建设不可或缺的关键环节。

《实施方案》提出,引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。

在推动数据标注转型升级方面,《实施方案》提出,加强数据标注领域科技创新,强化自动化工具和平台的研发与应用,发展“模型预标注+人工校准”“人工标注+模型检验”“模型预标注+模型检验”等智能化标注服务,全面提升数据标注水平。发展专家型数据标注服务,建立行业专家认证机制,推动专家深度参与指令微调、强化学习等阶段所需的专业知识标注,生产领域知识、逻辑推理等高质量数据集,提高数据集的知识密度与专业价值。

在推动数据标注先行先试方面,《实施方案》提出,指导首批七个承担数据标注先行先试任务的城市,持续做强做深数据标注产业。面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区。有序引导具备条件的地区因地制宜开展试验区建设,促进数据标注产业链上下游紧密协同,形成产业集聚效应。培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业。

在扩大数据标注人才供给方面,《实施方案》提出,支持有条件的院校增设数据标注相关课程,依托产教融合、校企协同等方式,培育具备专业知识的数据标注人才。鼓励开展数据标注职业技能等级认定,强化继续教育与在职培训,畅通人才发展通道。完善分层分类人才评价体系,建设专职与兼职相结合的专业标注人才队伍。鼓励高校毕业生等群体参与标注工作,通过灵活就业、项目协作、多元岗位供给等方式,扩展就业渠道。

业内专家表示,数据是人工智能训练的核心原料,高质量数据集可以加快提升大模型的性能。

探索词元交易等新型交易模式

在实施价值释放行动中,《实施方案》明确,发挥数据集的应用价值,以行业高质量数据集赋能人工智能发展。释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。

创新行业高质量数据集商业模式,完善数据集长效运营机制,鼓励数据集在数据交易所(中心)等数据流通服务机构挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系。

此外,《实施方案》还提到,引导金融机构、耐心资本、产业基金等,加大对行业高质量数据集建设的投资力度,鼓励地方设立专项资金,探索多元化、多渠道投入机制。鼓励在依法依规、风险可控前提下开展创新探索。持续跟踪行业高质量数据集建设工作,完善监测指标,评估建设和应用成效,阶段性总结经验。强化安全保障,落实数据安全相关法律法规要求,建立全流程安全治理机制,防范数据投毒与污染、数据泄露等安全风险,守牢数据安全底线。

官方数据显示,截至2026年3月底,全国已建成高质量数据集超过11.6万个,总体量超过了960PB,相当于中国国家图书馆数字资源总量的336倍左右。

北京商报综合报道

加载中...