谷歌发布AI大模型Gemini

媒体滚动 2023.12.12 10:00

多模态任务，谷歌展示GeminiUltra的性能。

Gemini1.0的三个版本。

Google数据中心内的一排CloudTPUv5pAI加速器超级计算机。Gemini 1.0版发布会。12月6日，Google CEO桑达尔·皮查伊官宣Gemini 1.0版正式上线。据介绍，谷歌Gemini从一开始就被创建为多模态模型。这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。Gemini也是谷歌迄今为止规模最大、能力最强以及最灵活的人工智能模型，从数据中心到移动设备，它能在所有设备上高效地运行。为了实现在所有设备上运行，谷歌针对三种不同的尺寸对第一代模型Gemini 1.0进行了优化，并发布了三个版本，分别是Ultra、Pro和Nano：Gemini Ultra—规模最大且功能最强大的模型，适用于高度复杂的任务。Gemini Pro—适用于各种任务的最佳模型。Gemini Nano—端侧设备上最高效的模型。从现在开始，Gemini也将陆续登陆谷歌产品，比如其聊天机器人Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划、理解等任务。这是Bard自推出以来最大的升级。它将在170多个国家和地区提供服务，但目前仅支持英语，未来有望支持其他的语言和地区。谷歌表示，Gemini是其人工智能发展过程中的一座重要里程碑，也标志着谷歌迈进新纪元的开始，其将继续快速创新，并以负责任的方式不断提升模型能力。全面超越GPT-4？自OpenAI于2022年底发布ChatGPT以来，人工智能领域就开启了“大模型之战”，科技巨头和初创公司纷纷下场，都希望在新一轮热潮中抢占先机。这场激烈的竞争持续至今，大模型和产品的性能是最受人关注的重中之重。“师出名门”的Gemini当然也不会落下。在性能比拼中，谷歌将Gemini的主要目标设定成了GPT-4（和GPT4V），对于那些GPT-4不支持的任务，谷歌则选择了目前水平最先进的模型（SOTA model）。据介绍，从自然图像、音频和视频理解到数学推理，在被大模型研究和开发中广泛使用的32项学术基准中，Gemini Ultra（最大尺寸版本）的性能有30项都超过了目前最先进的水平。在大规模多任务语言理解（M M L U，M a s s i v e M u l t i t a s k Language Understanding）测试中，Gemini Ultra的得分率高达90.0%，是第一个超过人类专家的模型。MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目，可用于测试模型对于人类世界的知识储备和解决问题的能力。在新的大规模多学科多模态理解（M M M U，M a s s i v e M u l t i - d i s c i p l i n e M u l t i m o d a l Understanding）基准测试中，Gemini Ultra也取得了59.4%的优异成绩，该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。在图像基准测试中，Gemini Ultra在不使用对象字符识别系统来提取图像中的文本进行下一步处理的情况下，表现优于现有最好的模型。领先的性能得益于Gemini的原生多模态属性。谷歌表示，Gemini 1.0具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容。“它还拥有通过阅读、过滤以及理解信息，从数十万份文件中提取见解的卓越能力，将有助于在从科学到金融等多个领域以数字化速度实现新的突破。”谷歌在博客中写道。此外，Gemini还具备高级编程能力，可以理解、解释和生成世界上最流行的编程语言（如Python、Java、C++和Go）的高质量代码，还能够跨语言工作并对复杂信息进行推理。谷歌表示，Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval（用于评估编码任务性能的重要行业标准）和Natural2Code（谷歌内部使用的数据集），使用作者生成的信息作为来源，而不是基于网络的信息。Gemini还可用作更高级编码系统的引擎。利用Gemini的专门版本，谷歌创建了更先进的代码生成系统AlphaCode 2，该系统擅长解决那些不仅需要编码能力、也需要复杂数学和理论计算机科学知识的竞赛性编程问题。或许带来工作生活方式的改变在训练方法上，谷歌使用了自家的硬件张量处理单元（TPUs，Tensor Processing Units）对Gemini 1.0进行了大规模训练。在TPU上，Gemini的运行速度明显快于早期规模更小、性能更弱的模型。的安全问题。”不过根据以往用户使用大模型的经历，人们总能找到各种方法来突破开发者设下的防护网，实现“越狱”。因此，Gemini在实际应用中的表现还需观望。除了开头提到的Bard，Gemini还将被部署在谷歌Pixel系列手机上，以及其他谷歌产品线，包括搜索、广告、Chrome浏览器等等。安卓开发者还可以通过AICore（安卓14中提供的新系统功能）使用Gemini Nano进行构建。与此同时，谷歌还将发布名为TPU v5p的新一代TPU，其训练大型语言模型的速度比上一代TPU v4快2.8倍。大模型普遍存在偏见和输出有毒内容等问题，开发者会通过设置安全护栏等措施来应对。在这方面，谷歌表示Gemini拥有迄今为止谷歌所有人工智能模型中最全面的安全评估，包括偏见和毒性评估。谷歌博客写道：“我们对网络攻击、说服力和自主性等潜在风险领域进行了创新性的研究，并应用了Google Research 一流的对抗性测试技术，帮助我们在部署Gemini之前检测关键值得注意的是，性能最强的Gemini Ultra目前尚未部署。谷歌正在对它进行大规模的信任和安全检查，包括由可信赖的外部团队进行红队测试，并在其被广泛应用前通过微调和人类反馈强化学习进一步完善模型。在模型的完善过程中，谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供Gemini Ultra，以供其进行早期试验和提供反馈。谷歌预计在2024年初向开发者和企业客户提供该模型。看得出来，谷歌对Gemini寄予了厚望，其表示：“我们对人工智能赋能的世界所带来的惊人可能性感到兴奋——这是一个创新的未来，它将增强创造力、扩展知识、推进科学并改变世界各地数十亿人的生活和工作方式。” （麻省）