天翼云刘禄仁:采用FPGA+CPU架构自研DPU,DPU1.0产品已上线
C114讯 9月3日消息(南山)在昨日举办的第二届SmartNIC & DPU技术创新峰会上,天翼云资深研发专家、自研DPU技术负责人刘禄仁发表演讲表示,引入DPU有多种架构,典型的有CPU Based、NP Based、ASIC+CPU、FPGA+CPU四种架构,天翼云选择了基于FPGA+CPU的架构。
原因包括多个方面。一是天翼云作为公有云,网络需求零散且动态化,很难将不同的需求抽象化成具有共性的研发需求,而DPU研发天然耗时周期长,在满足快速交付层面将会存在难题。二是一些DPU厂商已经开发的POC解决方案,与天翼云的实际商业化落地需求的差异越来越大。三是从DPU不同场景的测试稳定性来看,离实际需求存在较大差距。
DPU的需求来源于产品方案,涉及到产品经理、架构师和系统解决方案工程师,会覆盖存储、计算、安全、运维等多方面的问题。通俗的说,就是高度定制化。基于此,天翼云决定以SoC+IPC架构作为切入点,打造自研DPU,将计算、存储、安全和运维全部迁移到新一代体系结构中,实现了自主可控“一云多星”的能力。
天翼云已成功研发出天翼云DPU1.0产品,并以DPU云核为基础打造了为云而生的全新云计算体系结构。在具体实践上,天翼云一是在网络卸载方面,实现了满足裸金属、云主机和容器三种场景的需求,达到了400万流表,转发性能可以达到4000万PPS。天翼云DPU1.0还将传统运行在主机侧的应用转到DPU云核上,减少大量的适配工作,在主机不同算力核和不同架构上做到即插即用。
在存储卸载方面,天翼云针对经常出现的SoC异常重启、SPDK异常重启、热迁移丢IO等现象,将SoC侧软件的正常行为和异常行为进行统一,组件启动时统一发送msg信息给硬件,硬件收到该msg会解析其内容,进而从硬件保存的queue指针信息进行分析,在用户无感状态下实现全部异常的统一化处理。
在高性能网络上,天翼云也进行了调研,认为基于Cridet+时延+ECN的报文,将成为未来RDMA拥塞算法的演进趋势。天翼云建立了以博士为主的研发团队,博采众家之长,推出了全新自研的拥塞算法。
刘禄仁强调,DPU的价值不止是卸载。天翼云除了端侧的工作,也推出了自研交换机。在交换机上部署自研算法,使交换机同样具备主动拥塞通知能力和主动发包能力,可以有效降低端到端响应时延,同时简化建模和配置复杂度,提高系统的可扩展性。
在场景落地上,天翼云打造了多款产品,包括具有特色的天翼云弹性裸金属服务器。通过将网络、存储等功能卸载至DPU卡,可极大降低物理机侧CPU和内存等资源消耗,最终算力远超普通云主机。目前,在天翼云虚拟化、大数据、核心数据库以及金融行业等应用场景,已有很多资源池上线。