为了实现“人手一个AI大模型”，高通一个月火速交卷，背后却是15年的坚持

DeepTech深科技

2023.10.1315:08

关注

来源：DeepTech深科技

距离去年 11 月 30 日 ChatGPT 发布已经过去了 10 个月。这款有史以来增速最快的消费级应用在推出仅两个月后，全球用户数量已破亿。通过用户友好型的界面，它以无法阻拦的势头将人工智能这一原本“高大上的新鲜事物”带进了千家万户，从幕后推到了前台。

我们都需要 AI，但是……

不过，“百模大战”之下生成式 AI 的兴起带来了愈发庞大的模型参数量，和算力需求的一路飙升。以千亿参数的 GPT 为例，虽然它的加持能为用户带来更好的搜索体验和更具体的搜索结果（你可以输入大段内容而不用担心它看不懂），却也造成了搜索成本的成倍上升。根据高通发布的白皮书《混合 AI 是 AI 的未来》显示，生成式 AI 的搜索成本比传统方式高了 10 倍。与此同时，全球每天有超过 100 亿次搜索查询产生，为了应对如此巨大的运算需求，服务提供商需要多耗费数十亿美元部署硬件、场地、电力等基础设施，并增加大量电力成本。

因此，仅从 AI 服务提供商的角度来看，如果 AI 应用的计算可以在终端进行（至少一部分部署，一部分在云端，混合搭配），将极大地减轻运营压力，降低算力成本和能耗，终端侧 AI 的部署是当前的最优解决方案，也是大势所趋。

同时，对于终端用户和消费者来说，生成式 AI 的横空出世带来了近乎无限的可能性，在移动互联网的时代，以智能手机、PC 等为代表的移动终端侧出现了巨大的 AI 应用需求，同时也暴露出了云端 AI 的一系列问题。比如，当用户访问量大幅度增加时，云服务器和网络连接会不可避免地出现拥堵，影响用户体验；以及，在不论是企业还是个人用户都尤其关心的隐私安全问题上，云端的表现也并不尽如人意。这些都阻碍了生成式 AI 的进一步普及和深度应用，而终端侧 AI 的部署则有着高速、安全、本地化的优势，可以有效避免这些问题的出现。

图：终端侧 AI 或带来更好的用户体验丨来源：《混合 AI 是 AI 的未来》白皮书

另一方面。近期 iPhone 15 发布后被大众调侃“缺乏创新”，但我们应该意识到，这并非苹果独有的问题。放眼整个行业，过去，参数比拼在一定程度上成为了部分手机厂商和个别相关硬件厂商无法摆脱的怪圈，隐藏在底层的创新技术、创新特性似乎被很多人所忽略，这也让不少消费者对更新终端失去了兴趣。面对这样的背景，厂商们还可以“卷”什么？

生成式 AI 的兴起让行业看到了曙光。或许，“ AI 能力”将成为终端设备新的角力点，也是这个市场久违的、令人兴奋的新增长点。

庞大的新兴需求面前，高通是如何迅速填补空白的？

在 AI 服务提供商、终端厂商和消费者三个方面的巨大需求之下，谁来填补这个空白？

2023 年 2 月 23 日，高通技术公司成功在搭载了骁龙芯片的安卓手机上运行了 Stable Diffusion，这在全球还是首次。作为一款现象级应用，Stable Diffusion 可以基于大模型从文本生成图片，神奇的背后是复杂的模型和巨大的运算量，其模型参数超过 10 亿个，而正是由于模型庞大、算力需求高、能耗高企，此前主要局限在云端运行。

高通的这次演示，则是直接将这一“庞然大物”放进了手机，并在 15 秒内生成了效果可观的图片，表现出流畅的性能。可以说，它的里程碑意义正在于瞄准了市场需求，同时针对成本、能耗、可靠性、时延、隐私等问题，为各个参与方提供了一个整体解决方案。

图：手机端 Stable Diffusion 根据文本提示生成的图片丨来源：高通

在此前对高通技术公司产品管理高级副总裁兼 AI 负责人 Ziad Asghar 的深度采访中我们了解到，从拿到 Stable Diffusion 开源模型到成功在安卓手机上部署、运行，高通仅用了一个月不到的时间。作为一家头部科技公司，如此迅捷的部署究竟是如何做到的？

AI“原生玩家”与十年如一日的坚持

我们知道，任何一项技术的诞生都不是“无中生有”，我们今天看到的黑科技，必然建立在此前的科技突破和技术积累之上。因此，我们决定向前追溯，试图找到高通终端侧 AI 的“技术传承”，以及其间的草蛇灰线。

我们发现，高通对 AI 的研发投入，早在 2007 年就已经开始了。

对于如今的 AI 而言，2007 还是一个相当早期的时代。在前一年（2006年）的达特茅斯人工智能会议上，总结词是这么说的：“尽管人工智能在过去 50 年中取得了巨大成功，但该领域内仍然存在许多巨大的分歧。各个研究领域往往存在合作不足的情况，研究者采用各种不同的方法，同时在智能或学习方面尚未形成一个普遍的理论，无法将这一学科统一起来。”

2009 年，谷歌才开始秘密研发无人驾驶汽车，而“数据科学家”作为一个新兴职业被媒体热议，已经是 2010 年的事了。虽然高通涉足 AI 时行业尚不成熟，但其几乎每年都会发布一个重要成果。

早在 2007 年，高通就进入了人工智能领域，开始探索面向计算机视觉和运动控制应用的机器学习脉冲神经方法。

2009 年到 2013 年，高通投资了初创公司 Brain Corp，并且进行了联合研究。Brain Corp 如今已经是全球领先的机器人 AI 软件供应商，并且拥有全球最大的自主移动机器人车队。2015 年，高通对深度学习的研究逐渐深入，并且在著名的 ImageNet 挑战赛中取得了位列前三的成绩。

2014 和 2015 年，高通在阿姆斯特丹开设了高通荷兰研究院，并且与阿姆斯特丹大学成立了联合研究实验室。2016 年，一款重磅产品横空出世，高通骁龙神经处理引擎工具包（Snapdragon Neural Processing Engine SDK）正式发布。

这让高通成为了当年首家提供深度学习工具包（针对移动设备）的 SoC 供应商。这款 SDK 允许 OEM 厂商在智能手机、安全摄像头、汽车和无人机等骁龙 820 设备上运行自己的神经网络模型，所有这些都无需连接到云端。从此，下游厂商可以定制化开发场景检测、文本识别、对象跟踪和回避、手势、人脸识别和自然语言处理等功能。

从 2007 到 2016 年，高通持续投入，专注 AI 研发十年之久。不过，谷歌关于注意力机制的论文直到 2017 年才发表，Transformer 模型尚未诞生，此时的高通，仍在“厚积”之中等待“薄发”。

大模型到底是如何“装入”小终端的？

前几年在大型语言模型出现之后，高通也很快注意到了这一新兴技术，并做了一个在今天看来无比正确的决策——专注终端侧部署，并围绕这一目标研发了一系列技术与工具。

凭借此前的长期积累，高通在近 2~3 年内针对大模型进行了全栈优化，在应用、神经网络模型、算法、软件和硬件的各个方面进行突破。

要将大模型塞进小小的终端，给模型“瘦身”无疑是第一步。以智能手机和 Stable Diffusion 的部署为例，今年初，高通使用 AI 模型增效工具包（AIMET）将模型从 FP32 缩小到 INT8。所谓 FP32，是一种单精度浮点数，可以表述小数点后 7 位，相当精确，但是运算开销较大。INT8 就是 8 位整数，只占用 1 个字节，运算开销较小。

压缩模型的过程有一个专有名词，叫量化（Quantization）。量化往往是损失精度的，整个过程看起来就是牺牲精度换取运行速度，而 AIMET 的高明之处就在于不牺牲准确性的情况下进行量化，使用自适应舍入（AdaRound）等技术，可以在相当程度上保持模型精度，而不需要重新训练。

在模型编译阶段，高通 AI 引擎将神经网络映射为可在目标硬件上高效运行的程序。根据高通 Hexagon 处理器的硬件架构和内存层次结构对操作进行排序，以提高性能并最大限度地减少内存溢出。

其中一些增强功能是人工智能优化研究人员与编译器工程团队合作改进人工智能推理中的内存管理的结果。高通 AI 引擎中进行的整体优化显着降低了运行时延和功耗。

最后，所有这些技术都被统统整合到了“高通 AI Stack”（AI 软件栈）当中，成为了一个可视化的、面向厂商和开发者的软件平台，也正因此，高通才可以在不到一个月的时间内实现 10 亿参数的 Stable Diffusion 的成功部署。更重要的是，AI Stack具备“一次开发，全平台部署”的能力，也就是说开发者基于它开发的应用，不仅能在智能手机上部署，还可以快速应用于 PC 笔记本电脑、智能汽车、XR、以及物联网终端等，极大地提高了开发效率，从而让“人手一个 AI 大模型”、甚至“人手 N 个 AI 大模型”都能够加速实现。

举例来说，除了智能手机，PC 也是 AI 大模型推动终端侧变革的核心平台之一。最近，高通推出了下一代智能 PC 计算平台——骁龙 X 系列，搭载了全球首个面向 AI 处理的专用 NPU，结合高通 AI Stack，通过软硬件和工具的协作，或将加速 AI 大模型在 PC 终端侧的落地。

同样借助高通 AI Stack，高通在今年年中又取得了一大突破，在安卓手机端实现了 ControlNet 的成功部署。作为一类生成式 AI 解决方案，ControlNet 被称为语言视觉模型 (LVM)，允许通过调节输入图像和输入文本描述来更精确地控制生成图像，且参数量比 Stable Diffusion 更大，达到了 15 亿。在 AI Stack 加持和持续优化下，高通目前已经可以在手机上实现 12 秒内生成图像，而无需任何云端访问。

目前，高通 AI Stack 已经可以实现从 FP32 到 INT4 的模型量化压缩，模型体积进一步缩小，相对于 INT8 有了更大的飞跃。据悉，与 INT8 相比，INT4 的性能和能效提高了 1.5 倍至 2 倍，相对于 FP32 模型则带来了高达 64 倍的内存和计算能效提升。

软硬件结合，高通从终端侧发力推进 AI 大模型落地

AI 大模型加速走向落地，第一步就是让更多的人真正用上 AI，而高通在这方面显然早有布局。

年初，高通推出第二代骁龙 7+，以非旗舰移动平台为更广泛的用户群体带来旗舰级的使用体验和 AI 支持。此举无疑是对原本“旗舰专属”的终端侧 AI 服务的“下放”，同时也有望在客观上推动整个 AI 生态取得指数级增长。

这种以前沿技术普惠大众的理念是一脉相承的。如今，高通凭借软硬件的紧密结合、全栈优化，以一整套终端 AI 解决方案赋能三方，满足终端消费者对更好的 AI 产品和更加安全、流畅的体验的诉求，为终端厂商带来新的增长点和市场，同时也将大幅降低云端服务提供商的算力成本和能耗负载，这些都离不开其在 AI 领域超过 15 年的深耕和技术积累。

据悉，2023 年骁龙峰会已定于 10 月 24 日至 26 日期间在夏威夷举行，备受关注的全新骁龙 X 和第三代骁龙 8 都将在峰会上正式发布，而终端侧 AI 势必会是主角之一。最新进展如何？高通又将带来什么样的惊喜？让我们一起期待一下。

人工智能大时代已然来临，AI 能否真正做到普惠，其关键，或许就在你我的“掌中”。

参考资料：

1.https://www.qualcomm.com/news/onq/2023/06/qualcomm-at-cvpr-2023-advancing-research-bringing-generative-ai-to-the-edge

2.https://www.qualcomm.com/news/onq/2023/02/worlds-first-on-device-demonstration-of-stable-diffusion-on-android

3.https://www.qualcomm.com/news/onq/2023/05/how-on-device-ai-is-enabling-generative-ai-to-scale

4.https://www.qualcomm.cn/on-device-ai/leadership

5.https://www.forbes.com/sites/gilpress/2021/05/19/114-milestones-in-the-history-of-artificial-intelligence-ai/?sh=23ac03d274bf

新浪科技

为了实现“人手一个AI大模型”，高通一个月火速交卷，背后却是15年的坚持

DeepTech深科技

图丨来源：《混合 AI 是 AI 的未来》白皮书

图：终端侧 AI 或带来更好的用户体验丨来源：《混合 AI 是 AI 的未来》白皮书

图：手机端 Stable Diffusion 根据文本提示生成的图片丨来源：高通

图：高通的 AI 研发之路丨来源：《混合 AI 是 AI 的未来》白皮书

图：全栈 AI 优化丨来源：《混合 AI 是 AI 的未来》白皮书

图：高通 AI Stack 丨来源：《混合 AI 是 AI 的未来》白皮书