中科院路航:隐私计算时代即将带来,需要全同态加密处理器
新浪科技讯 12月16日下午消息,由新浪财经客户端、新浪科技联合主办的“2022科技风云榜”线上年度盛典今日开幕。中科院计算所副教授、硕士生导师路航发言指出,人和计算系统的关系正在不断地发展,我们即将迈入第三阶段的隐私计算时代,人类对计算机的需求从通用到智能,转变成保护隐私。而这个时代到来的一个代表就是拥有一款全同态的处理器,能处理稀疏的非结构化密文数据,而不再是明文数据。
在数字经济里面,它处理的主要对象就是数据,数据已经成为了我们国家的重要战略资源,而处理数据的载体就是计算系统。路航指出,计算系统的发展在早期是由军事需求催生的,到了商务和工业领域的应用需求使得计算机变得更为通用,人与计算系统的关系也在不断发展。
第一阶段:通用计算阶段,我们用智能手机或者是各类计算机用于处理各类业务来提高工作效率。比如我们在云服务用所用到的数据中心的服务器,给我们提供各种各样的云服务,我们可以网购,可以进行打车、日常出行等等服务。
第二阶段,智能计算。我们现在所处的一个重要阶段是智能计算阶段,通用计算提供各类能够提高我们工作效率的服务,智能计算就能给我们提供一些个性化的服务,比如给你推荐各种你喜欢购买的一些商品,给你推荐一些路线,让你的出行避免堵车。
第三阶段,隐私计算。这是即将到来的阶段,人类对计算机的需求从通用变得希望它变得智能,未来希望它能够保护隐私,这是人们对计算系统的一个重要的诉求。即使是在智能计算的时代,我们所有个人隐私的数据还有一些企业的数据都在机器“注视”之下,它非常不安全,有各种各样数据的泄露事件频繁发生,今后人们对计算机系统重要的诉求,就是希望它能够保护隐私,也就是隐私计算的时代是即将到来的一个非常重要的时代。
路航指出,隐私计算就是要保证数据的安全性,数据的安全已经上升为我国的国家战略,相应出台了一些法律,比如《数据安全法》《个人信息保护法》。研究数据的隐私保护技术对我们国家的信息产业以及国家安全都具有非常重要的作用。如果一个企业里遇到信息泄露的数据安全,数据安全被破坏,信息大量地泄露,对这个企业的打击是非常巨大的。
在路航看来,如何来保护数据安全?同态加密是非常重要的隐私保护计算技术,它被誉为“密码学的圣杯”,可以在不交换明文数据的情况之下依然进行业务计算。如果一个企业有了这样的一个功能,就可以大幅地减少安全上面投入的成本,不用再花很多精力和成本去保护数据安全,同时也能够增加用户对这个企业的信任,降低信任成本。
然而,同态加密在隐私计算领域里面有着重要的作用,但现在离落地还比较远,原因是,它巨大的计算开销阻碍了它的实际应用,如何保证在密文计算结果正确的前提下提高计算性能和能效,是当前业界比较公认的难题。
路航指出,一个明文状态下只有30.5kb的应用,在密文的情况下要膨胀到1.33个Gb,大概膨胀了5.2万倍,计算的时间由0.1秒左右提升到了390秒,膨胀了2000多倍,甚至有些应用还会膨胀上亿倍,而这是由同态加密算法本身的算法决定的。由于数据的膨胀,计算时间就会大幅地增长,迫切需要一些新的信息基础设施来加速同态加密算法的执行,减少它的执行时间,使得它能够脱离商用,离真正保护数据的安全能够更进一步。
长期关注国内外同态加密前沿发言,路航发现,目前全球还没有任何成体系的同态加密硬件信息基础设施,大多只停留在论文上,但整体来说国内外在体系结构的紧急会议上,对同态加密技术的讨论已经比较活跃,且国内距离国外没有落后太多。
据路航介绍,为了解决同态加密的技术瓶颈,目前他的团队提出了一个名为“波塞冬(Poseidon)”的专用芯片体系架构设计,目前相应的成果已经被明年即将开启的体系结构四大顶会之一——HPCA高分录用。我们这个架构通过软硬件协同设计和优化的方法,对同态加密来进行计算加速,并设计专用的芯片原型系统提升其计算性能。在基本的算子性能方面超过CPU上千倍,已达到全球领先水平。
据路航介绍,明年他们团队将把这个全同态处理器进行投片,准备采用TSMC的14nm,算力预计能够达到24000次每秒执行NTT的个数,功耗大概180瓦。最后这个芯片变成一个PCIe的SOC,集成各种新型的存储器技术,同时将支持现在比较主流的CKKS、BFV等全同态加密算法。而且可以给用户提供业务逻辑的全站可编程,给用户提供相应的API和框架支持,让用户可以在卡上编写自己丰富多样的隐私计算应用程序。
“我们希望构建一个自主知识产权的全同态加密处理器芯片,以及相应的SOC。相比于用现有的CPU,用软件的方式相比能够到上万倍的性能的提升,希望能够孵化出下一个芯片方面的独角兽。”路航表示。
在路航看来,现在我们所处的阶段是智能处理器的阶段,是一个智能计算的时代。智能时代的代表是智能处理器,它所处理的数据是稀疏的明文数据。未来我们所处的时代是个隐私计算的时代,它需要一个全同态的处理器去处理稀疏的非结构化密文数据,进而保障用户隐私和数据安全。(文猛)
以下为演讲实录:
《数字经济中的隐私计算技术和芯片》
路航:各位听众大家好,我是路航,很高兴参加2022科技风云榜年度盛典——培育新生态主题论坛,我今天分享的内容是“数字经济中的隐私计算技术和芯片”,请允许我共享一下桌面。
我来自中国科学院计算技术研究所,现任副教授、硕士研究生的导师。我们今天讨论的主体和数字经济有关,数字经济的概念就是直接或者间接通过数据来引导资源发挥作用,从而推动生产力发展的经济形态。
我们国家非常重视数字经济,早在“十四五”的发展规划里面就提到“要建设高速泛在、天地一体”的数字信息基础设施,保证数字经济快速健康有序地发展。
在数字经济里面,它处理的主要对象就是数据,数据已经成为了我们国家的重要战略资源。处理数据的一个载体就是计算系统,计算系统的发展历程是经过了几个阶段,在早期是由军事需求催生了计算机的诞生。在现阶段商务和工业领域的应用需求,使得计算机变得更为通用,就像现在我和大家在进行交流使用的台式机,还有平时我们用到的智能手机一样,这些都是属于通用计算机的范畴。计算机和互联网正式进入人类的生活,从而形成了信息社会和信息产业。
人和计算系统的关系也在不断发展。
第一阶段:通用计算阶段,我们用智能手机或者是各类计算机用于处理各类业务来提高工作效率。比方我们在云服务中所用到的数据中心的服务器,给我们提供各种各样的云服务,我们可以网购,可以进行打车、日常出行等等服务,都是由云计算里的信息基础设施给我们提供服务,大大提高了我们的工作效率。
第二阶段,智能计算。我们现在所处的一个重要阶段是智能计算的阶段,通用计算提供各类能够提高我们工作效率的服务,智能计算就能给我们提供一些个性化的服务,比如给你推荐各种你喜欢购买的一些商品,给你推荐一些路线,让你的出行避免堵车,这些都是智能计算所能给我们提供的服务。
第三阶段,隐私计算。这是即将到来的阶段,人类对计算机的需求从通用变得希望它变得智能,未来希望它能够保护隐私,这是人们对计算系统的一个重要的诉求。甚至在智能计算的时代,我们所有个人隐私的数据还有一些企业的数据都在机器的“注视”之下,它非常不安全,有各种各样数据的泄露事件频繁发生,今后人们对计算机系统重要的诉求,就是希望它能够保护隐私,也就是隐私计算的时代是即将到来的一个非常重要的时代。
隐私计算就是要保证数据的安全性,数据的安全已经上升为我国的国家战略,相应出台了一些法律,比如《数据安全法》《个人信息保护法》。研究数据的隐私保护技术对我们国家的信息产业以及国家安全都具有非常重要的作用。
列举几个信息安全的事件。
2021年滴滴的app严重违规收集了个人信息,进一步上升为国家安全事件。在今年7月份,上海公安的数据库10亿人的信息遭窃,当时这些信息以多少比特币的价格在网上进行兜售。这些数据安全是对于企业也有着非常重要的作用,如果一个企业里遇到信息泄露的数据安全,数据安全被破坏,信息大量地泄露,对这个企业的打击是非常巨大的。
我在一个论坛上听到一个老师所讲,他说云计算发展最大的障碍是安全和隐私问题。所以,数据只有真正进入密态,真正能够保护隐私,才能最终解决客户的安全顾虑。
如何来保护数据的安全?有哪些技术能够真正做到这一点?同态加密是非常重要的隐私保护计算的一个重要的技术,它被誉为“密码学的圣杯”。它的一个特点是可以在不交换明文数据的情况之下依然进行业务计算。如果一个企业有了这样的一个功能,就可以大幅地减少安全上面投入的成本,因为所有的数据都能够在不接触明文,包括不暴露明文的情况下能够给你提供服务,能够进行业务计算,我们不用再花很多精力和成本去保护数据安全,同时也能够增加用户对这个企业的信任,降低信任成本。所以,它是一个隐私保护计算的非常重要的手段。
同态加密在隐私计算领域里面有着重要的作用,但现在离落地还比较远,原因是它巨大的计算开销阻碍了它的实际应用。因此,如何能够保证在密文计算结果正确性的前提下提高计算性能和能效,是当前业界比较公认的难题。
我们可以通过一个例子来看它的“难”到底体现在哪里,数据在明文,假设某一个应用是30.5kb,在密文的情况下要膨胀到1.33个Gb,大概膨胀了5.2万倍,计算的时间由0.1秒左右提升到了390秒,膨胀了2000多倍,甚至有些应用还会膨胀上亿倍,这是由同态加密算法本身的算法决定的,数据就会有这样大的膨胀。由于数据的膨胀,计算时间就会大幅地增长,迫切需要一些新的信息基础设施来加速同态加密算法的执行,减少它的执行时间,使得它能够离商用,离落地,真正保护数据的安全能够更进一步。
这是国内外的一些研究的现状。我们国内外还没有任何成体系的针对同态加密的硬件信息基础设施,也只是停留在论文上,在国内方面,国内外在体系结构的紧急会议上,近年来比较活跃,我是来自学术界,所以我很关注这个方面的发展动态。
我们国内也有一些机构在这个体系结构的一些会议上发表了他们自己针对同态加密硬件加速的一些成果。总体来说国内还是稍微落后于国外,但是没有落后那么多。
整体纵观这些研究成果,计算性能虽然有各种各样不同程度的提升,但是距离实际的应用还相差比较远,系统化的方案依旧没有。也就是我们目前还没有针对隐私保护计算有一个非常成型的生态。
西方国家也在全面布局这样一个同态加密的芯片技术,比方说美国和欧盟都在相应地布局。美国这样一个计划,联合了微软和英特尔,有做软件的公司,也有做芯片的公司,斥资1亿美元,希望能够把同态加密这样一个技术能够真正落地。
我国在同态加密的芯片方面还处于一片空白。
我们具体来看一下它到底难在哪里,这个芯片要是把它做出来到底要解决哪些问题。还是这几个应用,我们统计了它实际计算的时间和在理论上带宽的需求,带宽的需求和计算的时间都大幅地增多,相比于明文计算都要大幅地提高。但在密文计算的情况下,有些应用的计算时间都要膨胀上亿倍,而理论上带宽的需求可能要达到上Tb每秒。现在没有任何一个计算系统能够提供这样大的一个带宽,这两个方面都成为了制约我们同态加密能够真正在现有的硬件平台上快速执行的一个瓶颈。
带宽需求最高可以达到3.3TB/s,最少要达到上GB,所以它对带宽的需求是非常非常庞大的,这是两个主要的瓶颈。
我们为了解决这个瓶颈,如何进行破局呢?我们团队提出了一个专用芯片体系架构的设计,我们命名为“波塞冬(Poseidon)”,这是一个全同态处理器的架构,相应的成果也被明年即将开的HPCA,也是我们体系结构的四大顶会之一,以高分录用。我们这个架构是通过软硬件协同设计和优化的方法,对同态加密来进行计算加速,并设计专用的芯片原型系统提升其计算性能。为什么我们把它命名为波塞冬呢?因为密文数据是海量的,而且数据膨胀非常非常大,而且本身数据量也很大,就像大海一样,能够驾驭这些数据,一定是非常有本事的,所以我们把它命名为希腊神话里面海神的名字波塞冬,力求在隐私计算的时代提供全新的信息基础设施,来构建这样一个数据安全计算的生态。
我们的芯片具备卓越的性能,现在我们是以FPGA,也就是可编程逻辑器件作为平台来验证我们这个芯片的性能,在基本的算子在性能方面要超过CPU上千倍,国外还没有进行流片,他们在往ASIC方面去设计,还没有真正进行流片,只是停留在芯片的仿制验证阶段,和他们这些设计相比,我们的波塞冬的性能和它们的性能基本持平,甚至更优。但是要注意的是我们使用可编程逻辑器件来得到的这些性能,而它们是在仿真平台上。如果我们要进行流片,真正做成芯片,我们的性能肯定是比他们要高很多的。
所以,明年我们即将把这项全同态处理器也要进行投片,准备使用TSMC的14nm,算力预计能够达到24000次每秒执行NTT的个数,功耗大概180瓦。最后我们的这个芯片变成一个PCIe的SOC,那里面也有各种新型的存储器技术,比如HBM,所支持的算法也是现在比较主流的CKKS、BFV等等这些全同态加密的算法。而且我们这个卡是从指令级、编译都有相应的支持,可以给用户提供业务逻辑的全站可编程,也就是用户可以在我们这个卡上编写自己丰富多样的隐私计算的应用程序,也会给用户提供相应的API和框架的支持。
既然是一个生态,我们希望我们这个波塞冬全同态处理器以及PCIe的SOC赋能如下这些生态,比方说银行的信贷,还有网联汽车对数据的保护,对行驶数据、维保数据、轨迹数据保护。再比方说金融的风控、医疗数据,要获取一个患者的医疗信息、个人信息,无论是从医院还是从患者的角度来说,都是希望数据能够不暴露明文,不希望知道我个人的信息,同样能给我提供医疗服务。我们就希望我们的这个波塞冬能够在这些场景里面进行赋能。
同时,我们也要准备进行产业孵化,依托高校研发机构和企业,共同孵化产业化的公司,既然提到生态,我们这个论坛主要是针对生态,我们所要提供的生态是隐私计算的应用服务的生态,希望把我们PCIe的卡能够插到云计算数据中心里,插到无论是信创的服务器还是现有的非国产的服务器都可以,能够让它真正对外提供隐私计算的云服务。希望从数字经济中来,回到数字经济中去,为金融行业、工业互联网以及智能网联汽车等等一些行业提供隐私计算的服务。
最后,我们希望构建一个自主知识产权的全同态加密处理器芯片,以及相应的SOC。相比于用现有的CPU,用软件的方式相比能够到上万倍的性能的提升,希望能够孵化出下一个芯片方面的独角兽。
我们所构建的生态包含三个方面:处理器的芯片和全域可信的PCIe的加速卡,以及我们配套的软件站,还有编译工具,还有SDK开发工具、开发平台等等。接下来基于我们这个PCIe的加速卡,能够构建一个隐私计算的一体机,这个一体机就相当于我们数字经济里面的信息基础设施来对外提供服务,只不过我们提供的服务是隐私计算的服务。
接下来我们希望隐私计算一体机上面所能跑的一些云原生的应用,针对隐私保护的一些应用能够全方位地进行支持,能够赋能数据要素的有序健康的流通,赋能各个重大行业,比如说金融、政务、企业、医疗等等这一类行业重大的行业应用。
几类处理器的分类,这是在一个论坛里,一位老师对各种现有的处理器进行分类,有IO密集型的、计算密集型的,针对的对象可以以控制为中心和以数据为中心。我们全同态处理器是这样一个状态,它既是IO密集型的,也是一个计算密集型的,也是以数据为中心。所以,它的覆盖范围更广,也是一个非常重要而且是一颗大芯片。
最后,总结一下计算机的发展历程。
早期是一个通用处理器作为主导的时代,以英特尔和AMD这样的公司作为主导。如果是在终端,就是以ARM为代表,它们来主导。它们所处理的数据是比较稠密的结构化的,但是数据量并不是很大的明文数据。
现在我们所处的阶段是智能处理器的阶段,是一个智能计算的时代。智能时代的代表是智能处理器,它所处理的数据是稀疏的明文数据。
未来我们所处的时代是个隐私计算的时代,它的一个代表就是我们所提出的全同态的处理器,这个全同态处理器所处理的数据就是稀疏的非结构化的密文数据,就不是明文数据了,因为我们要保障隐私,保护数据安全。但是全同态处理器和前面两个时代的代表性的处理器不一样,是完全可以由我们国家自主创新引领的。因为在这个时代,我们国家和国外的差距还没有那么大,希望波塞冬处理器能够真正成为我们国家自主创新引领隐私计算时代的一个非常重要的处理器。
我的报告就到这儿,非常感谢大家的聆听,希望大家批评指正,谢谢!