​老黄连续三年都提,这DPU是什么风口之物?

阅读  ·  发布日期 2022-04-07 15:39  ·  admin

有心的朋友可能都注意到,连续三年黄仁勋在NVIDIA的GTC等发布活动上,都提出了发展DPU以促进边缘计算等发展的言论。今年最新的NVIDIA发布会,除了3090Ti外,就是新的DPU发展计划。自CPU、GPU后,DPU再次登台而且成为了新的“风口”。那么,它究竟是什么,吸引了从Intel到NVIDIA等传统巨头都纷纷投入?

 

图片

 

整合旧的处理单元,专注处理数据

 
 

 

相信很多人对于CPU(中央处理器)已经非常熟悉了。灵活、响应迅速的CPU多年来一直是大多数计算机中唯一的可编程元件。

 

近年来,GPU(图形处理单元)逐渐成为了计算的中心。最初GPU是用来做功能强大的实时图形处理,现在凭借其优秀的并行处理能力,已经成为各种加速计算任务的理想选择。

 

这使GPU成为了人工智能、深度学习和大数据分析应用的关键。

 

过去十年中,计算已经不仅仅局限在个人电脑和服务器内,CPU和GPU已经被广泛地用于各个新型超大规模数据中心。

 

这些数据中心通过功能强大的新型处理器连接在一起,DPU( Data Processing Unit ,数据处理器)已经成为了以数据为中心的加速计算模型的第三个计算单元。NVIDIA首席执行官黄仁勋在一次演讲中表示:“它将成为未来计算的三大支柱之一。”

 

“CPU用于通用计算,GPU用于加速计算,而数据中心中传输数据的DPU则进行数据处理。”

 

DPU是一种基于行业标准,高性能及软件可编程的多核CPU,核心是具有高性能网络接口、灵活、可编程的加速引擎,满足特定场景的计算需求。

 

图片

 

DPU出现,因为CPU和GPU接近极限

 
 

 

从x86 CPU,到移动互联网时代的ARM CPU,构成了传统IT的硬件设备核心。随着区块链和3D、AI人工智能技术的发展,GPU又成为了计算能力的新规。然而到了万物互联的元宇宙时代,人们突然发现一个重要的问题:

 

无论是CPU还是GPU,它们的性能快不够用了。

 

图片

1990年到2020年,万物互联(网络)速度核CPU速度增长的对比

 

CPU几乎快要触及半导体原料的物理效应极限,人类冲击2nm以下的工艺制程困难重重。GPU虽然凭借可接受的更大芯片体积以及并行化处理,还能通过堆叠的方式继续冲击性能,但是功耗已经大大提高到和节能环保背离,40系显卡需要千瓦级电源就是最好的个案。

 

传统提升CPU和GPU算力的主要途径,就是堆料,说白了就是不断增加内核的数量。CPU从最初的单核、到双核、四核,再到现在夸张的128核,这种简单粗暴的堆料方法已经走到了尽头:功耗的限制让传统制程和架构的提高有了极限。

 

芯片上的内核就像大楼的房间,当大楼总表的电力有限的时候,这些房间的电器不能同时开启,因此即便房间很多,能用起来的并不多,这就是12代酷睿为何发展出P、E核,ARM为啥从六七代开始就有了大小核之分的原因。

 

单个芯片的功耗并不能无限制增加,所以即便堆了很多内核,它们也无法同时高效工作,这就造成了CPU的性能瓶颈。

 

DPU领跑“领域架构”

 
 

 

领域专用架构(Domain Specific Architecture),也称作DSA。DPU就是其中的代表,其核心思想,是针对特定领域做芯片架构的优化,从而实现性能和功效的双重提升。

 

DPU正是通过架构优化、场景优化、软件优化,完成了在数据中心场景里,传统CPU已经无力估计的众多方面。

 

DPU本身是一种SOC(System On Chip,片上系统)芯片,它结合了:

 

行业标准的、高性能及软件可编程的多核CPU

通常基于已应用广泛的Arm架构,与其的SOC组件密切配合。例如NVIDIA的BlueField-3里有16个ARM A78内核,8MB L2、16MB L3 Cache。它还支持可编程的数据通路,包含16个内核、256线程。

 

高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到GPU和CPU。

以NVIDIA的DPU为例,从BlueField-2的200Gbps以太网或InfiniBand、PCIe Gen4x16支持,到BlueField-3的400Gbps以太网、PCIe Gen5x32支持,核心都是几何级提高芯片的网络核数据总线速度,提高数据处理效率。

 

各种灵活和可编程的加速引擎,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。

DPU在芯片架构上进行了领域专用优化,比如BlueField里就集成了很多专用的硬件加速器,比如对Virtio、NVMe、IPSec等等数据中心常见协议的硬件模块。原本这些协议都是使用CPU执行开发者代码实现,现在直接通过DPU就可以用硬件实现了,就像硬件解码一样,效率大大提升。

所有这些DPU功能对于实现安全的、裸性能的、原生云计算的下一代云上大规模计算至关重要。

 

是网卡,更是DPU

 
 

 

来看看一个简单的DPU单元,所谓的smartNIC。

 

图片

 

DPU可以用作独立的嵌入式处理器,但通常是被集成到SmartNIC(一种作为下一代服务器中关键组件的网卡)中。上图就是一张采用NVIDIA的BludField-2 DPU的SmartNIC。

 

为什么DPU采用SmartNIC的形态呢?

 

如果想通过蛮力在性能上击败传统的x86 核ARM架构的CPU,结果注定会失败,这样做既没有竞争力,也无法扩展。如果说一个传统 CPU尚且无法以每秒100 Gb的速度处理数据包,如何能期望一个嵌入式CPU做到?

 

图片

某DPU系统通过内建的高速数据总线核模块,同时处理多路NVME SSD数据,实现高达1500万IOPS的4K读取性能

 

但换个思路,如果网卡足够强大和灵活,可以处理所有网络中的数据,而嵌入式CPU则被用来做控制路径的初始化和异常情况处理,一切就都解决了。

 

图片

DPU如果专注处理海量特定数据,那么CPU方面就可以专注实用虚拟机等技术给用户提供更好体验

 

这就是DSA领域专用架构带来的DPU思想的精髓。根据具体的应用领域进行优化,帮传统CPU减负,任何可以不需要在CPU上运行的任务,都放在DPU上执行。

 

DPU兴起,就是因为它解决了现代数据中心里CPU解决不了的一系列难题,实现了架构优化、场景优化、软件优化。

为您推荐