人民数据打造全球最大中文语义语料库助力Sora新场景

市场资讯 2024.02.20 13:15

来源人民数据

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑。

与此同时，随着AI生成内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成为了一个重要问题。此外，版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战，通过制定相关政策、法律和伦理准则来确保技术的健康发展，同时保护个人和社会的利益不受侵害。

当前，大模型已成为AI领域的热门赛道，众多企业竞相入局投入研发。随着越来越多的AI大模型产品向公众开放，其引发的数据隐私与版权争议日益激烈。

AI大模型频繁侵权遭抵制

AI大模型引发的数据安全问题引发全球高度关注。现实中，数据来源和版权归属复杂、用户授权规则和知情权不明晰、技术判定和取证困难等多重挑战，使大模型在训练和应用阶段均可能出现数据滥用问题。

2023年3月，意大利以OpenAI公司推出的聊天机器人ChatGPT违反欧盟《通用数据保护条例》等数据隐私保护规定为由，宣布对其禁用；西班牙、法国等欧洲国家跟进对其展开调查。不到半年时间，ChatGPT陷入与多家内容平台的版权纠纷之中。OpenAI、Meta、微软等科技公司接连遭遇诉讼，被控从互联网上“窃取”大量个人数据信息及未授权作品来训练AI工具。在国内，小红书、LOFTER等平台去年推出的AI绘画功能也因滥用户数据训练AI、侵犯画师作品版权而遭用户抵制而下线。

有专家指出，用于大模型训练的语料来自互联网的各个角落，包括但不限于书籍、文章、新闻、论坛、博客等等，凡是互联网上可以找到的信息几乎都在其学习之列。即便科研人员会对语料进行数据清洗，但其中仍有可能包含个人隐私信息；随着数据来源的扩大，即便是号称“开源”的各类数据库，也并非意味着完全不存在版权合规问题。此外，生成式AI的快速发展可能导致虚假信息野蛮生长，舆论对“深度造假”问题的担忧逐渐加剧。

全球范围合规监管加速探索

针对各自AI产业发展的现状，不同国家对数据安全性、合规性、伦理性的监管重点不尽相同。如在日本、欧美等地的著作权法中有文本和数据挖掘的限制例外制度，其中规定，为了训练人工智能的目的而利用他人作品的行为可以不认定为侵权。

我国在信息内容安全领域已经有了较为完整的实践思路。近年来，《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》颁布，为数据安全提供了基础性法律保障。《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等文件相继出台，对技术向上向善发展加强引导和规范。

2023年8月，国家网信办等7部门发布的《生成式人工智能服务管理暂行办法》正式施行，其中明确规定，应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。10月，全国信息安全标准化技术委员会组织制定的《生成式人工智能服务安全基本要求（征求意见稿）》面向社会公开征求意见，其中对语料来源安全、内容安全、标注安全等做出了明确要求。

以语料库建设助力AI产业安全发展

“一边是‘嗷嗷待大量数据以哺’的人工智能，另一边是越发重视个人信息保护的用户，如何善用数据，考验全社会数据治理的能力和成效，事关万千网民的切身利益。”人民日报评论指出，发展和安全从来不必然是矛盾的、对立的，平衡好各方面利益，才能推动生成式人工智能健康可持续发展。

语料库是训练和优化AI大模型的“养料”。当前，我国AI发展所需要的语料数据仍相对匮乏。有数据显示，全球通用的50亿大模型数据训练集里，中文语料的占比仅为1.3%。业内人士指出，虽然我国的数据资源丰富，但是由于数据挖掘与流通不足，中文语料库与英文等其它语言的数据语料库相比仍有差距，可能成为阻碍大模型研发的重要因素。

国内多地数据交易所和大模型研究机构已围绕中文语料库建设展开探索。面对合规难题，国家数据库、主流价值语料库等建设备受关注。

在2023年7月举行的2023全球数字经济大会上，首批“北京市人工智能大模型高质量数据集”发布，包括人民日报在内的10家单位的18个高质量训练数据集入选。

为促进AI大模型发展，人民数据打造了新闻数据、问答数据等语义语料库，相关数据量达到了近3亿条。该语义语料库面向人工智能大模型、通用人工智能、智能互联网等应用场景，提供高质量的语料生产、定制、供给服务。针对当前大模型普遍回答不了、回答不好却又必须直面、不容回避的重大问题、敏感问题、疑难问题、复杂问题，该语义语料库梳理了1万余个重点问题，并精心编撰建成优质问答语料库，助力解决大模型在语料方面的刚性需求、紧急需求、安全需求。语料库的进一步丰富充实或将使资料查找更加便捷，进一步降低了普通人的AI使用门槛，帮助普通人以更简单的方式获取更全面的信息。

AI技术和应用创新，“合规”始终是底线。未来还需加强对AI大模型安全、规范、可持续发展的探索，充分挖掘各类数据资源价值，以构建主流价值语料库为抓手，推动中国AI产业安全发展。