天翼云刘禄仁：采用FPGA+CPU架构自研DPU，DPU1.0产品已上线

C114通信网

C114通信网官方账号 2022.09.0313:19

关注

C114讯 9月3日消息（南山）在昨日举办的第二届SmartNIC & DPU技术创新峰会上，天翼云资深研发专家、自研DPU技术负责人刘禄仁发表演讲表示，引入DPU有多种架构，典型的有CPU Based、NP Based、ASIC+CPU、FPGA+CPU四种架构，天翼云选择了基于FPGA+CPU的架构。

原因包括多个方面。一是天翼云作为公有云，网络需求零散且动态化，很难将不同的需求抽象化成具有共性的研发需求，而DPU研发天然耗时周期长，在满足快速交付层面将会存在难题。二是一些DPU厂商已经开发的POC解决方案，与天翼云的实际商业化落地需求的差异越来越大。三是从DPU不同场景的测试稳定性来看，离实际需求存在较大差距。

DPU的需求来源于产品方案，涉及到产品经理、架构师和系统解决方案工程师，会覆盖存储、计算、安全、运维等多方面的问题。通俗的说，就是高度定制化。基于此，天翼云决定以SoC+IPC架构作为切入点，打造自研DPU，将计算、存储、安全和运维全部迁移到新一代体系结构中，实现了自主可控“一云多星”的能力。

天翼云已成功研发出天翼云DPU1.0产品，并以DPU云核为基础打造了为云而生的全新云计算体系结构。在具体实践上，天翼云一是在网络卸载方面，实现了满足裸金属、云主机和容器三种场景的需求，达到了400万流表，转发性能可以达到4000万PPS。天翼云DPU1.0还将传统运行在主机侧的应用转到DPU云核上，减少大量的适配工作，在主机不同算力核和不同架构上做到即插即用。

在存储卸载方面，天翼云针对经常出现的SoC异常重启、SPDK异常重启、热迁移丢IO等现象，将SoC侧软件的正常行为和异常行为进行统一，组件启动时统一发送msg信息给硬件，硬件收到该msg会解析其内容，进而从硬件保存的queue指针信息进行分析，在用户无感状态下实现全部异常的统一化处理。

在高性能网络上，天翼云也进行了调研，认为基于Cridet+时延+ECN的报文，将成为未来RDMA拥塞算法的演进趋势。天翼云建立了以博士为主的研发团队，博采众家之长，推出了全新自研的拥塞算法。

刘禄仁强调，DPU的价值不止是卸载。天翼云除了端侧的工作，也推出了自研交换机。在交换机上部署自研算法，使交换机同样具备主动拥塞通知能力和主动发包能力，可以有效降低端到端响应时延，同时简化建模和配置复杂度，提高系统的可扩展性。

在场景落地上，天翼云打造了多款产品，包括具有特色的天翼云弹性裸金属服务器。通过将网络、存储等功能卸载至DPU卡，可极大降低物理机侧CPU和内存等资源消耗，最终算力远超普通云主机。目前，在天翼云虚拟化、大数据、核心数据库以及金融行业等应用场景，已有很多资源池上线。