东海基金|AI衍生的机会:详解大模型
1
什么是大模型
在机器学习和AI等领域,“模型”是指一种数学模型或计算模型,可以根据海量数据学习出模式或规律并对未来的数据进行预测,或生成新数据。大模型,顾名思义,就是很大的模型,现在常说的大模型之大,一般指内置的参数量数量级之大,比如GPT-3.5的1750亿参数。目前大火的,各种各样的类GPT产品属于大语言模型(Large Language Models,简称LLM)。
大模型的需求是因为小模型泛化能力不行,以人脸识别为例子,小模型识别人脸的不能识别人体,识别人的不能识别车,如果应用到新的领域,就要重新学习了。而大模型要做的,就是变得更加通用,泛化能力更强,只需要对一个大模型进行预训练,并利用少量数据微调,就可以达到非常好的效果。
2
大模型的发展
美国OpenAI、谷歌、微软、Facebook等机构,均在布局大规模智能模型的 研发,形成了GPT-3、Switch Transformer等千亿或万亿参数量的大模型。过去几年,大模型经历了众多突破发展。2017年,Vaswani等提出Transformer架构,奠定了当前大模型领域主流的算法架构基础。2018年,谷歌提出了大规模预训练语言模型BERT,OpenAI提出GPT,极大地推动了自然语言处理领域的发展,成为预训练史上重要的里程碑。2020年5月,OpenAI公开了超大规模预训练语言模型GPT-3, 参数达1750亿,在全球范围内掀起了研发千亿参数规模模型的热潮。
大模型一般是通过“预训练模型”的方法,类似早期的迁移学习,将一个超大的模型在超大的数据下进行预训练,达到特别强大的表征能力后,再将表征学习能力应用到特定领域,如果大模型在通用能力上表现非常强大,也就是“非常聪明”,则可以做到学什么都“一点就通”,那么对小样本场景也就变得友好。
3
大模型的应用
大模型最开始是应用在NLP领域,广泛应用在语言生成、语言理解、对话、创意内容生成等。近一两年,大规模预训练模型转向视觉领域,再转向多模态,获得了优于以往方法的效果。在多模态方面,2020年百度提出了UNIMO,面向多模态统一的预训练模型。2021年9月,中科院自动化所展示了业内首个千亿参数三模态大模型“紫东太初”。多模态统一的预训练模型之路成为一个重要的发展路径。多模态统一之路也是更符合仿生智能之路。随着大规模预训练模型的不断发展,不仅仅在技术上突破,在商业化上,也有不少的尝试。
(1)大规模在预训练阶段即可有效地从海量数据中获得知识,通过预置大量参数并针对特定任务加以微调,极大地扩展了大模型的通用能力。例如在NLP领域,大模型通过预训练任务和部分下游任务的参数,在一定程度上解决了通用性的难题,可以被应用于翻译,问答,文本生成等自然语言任务,ChatGPT的能说会道也在很大程度上得益于此。
(2)大模型的自监督学习方法可以减少数据标注,这在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。由于节约了数据标准的成本,使得小样本的学习也能达到比以前更好的能力,并且模型参数规模越大,优势越明显,避免开发人员再进行大规模的训练,使用小样本就可以训练自己所需模型,极大降低开发与使用成本。数据标注依赖的人工成本非常高,而在移动互联网触手可及的时代,大量的未标注数据很容易获得。
未来,随着算力再进一步规模化提升,我们会习惯大模型的“大”,甚至当算力和数据指数级发展,以及我们对算法的掌控更加高效,或许我们会认为当前的大模型很“小”。未来的进一步变“大”是通用AI的重要路径。
风险提示:本文相关观点不代表任何投资建议或承诺。本内容涉及的关注和研究方向仅为当前根据市场情况选取的重点关注领域,不必然代表未来投资方向。基金管理人有权根据市场变化选取符合合同要求的投资标的,具体以实际投资情况为准。东海基金管理有限责任公司(以下简称“本公司”)或本公司相关机构、雇员或代理人不对任何人使用此全部或部分内容的行为或由此而引致的任何损失承担任何责任。未经本公司事先许可,任何人不得将此报告或其任何部分以任何形式进行派发、复制、转载或发布,或对本专栏内容进行任何有悖原意的删节或修改。本公司承诺以诚实信用、勤勉尽责的原则管理和运用基金财产,但不保证基金一定盈利,也不保证最低收益,投资者投资于本公司基金时应认真阅读相关基金合同、招募说明书、基金产品资料概要等文件并选择适合自身风险承受能力的投资品种进行投资。我国基金运作时间较短,不能反映所有发展阶段,相关历史数据并不预示其未来发展趋势,也不构成对东海基金管理的基金的未来业绩表现的保证。相关资料仅供参考,不构成投资建议。投资有风险,入市需谨慎。