老黄连续三年都提，这DPU是什么风口之物？

阅读 · 发布日期 2022-04-07 15:39 · admin

有心的朋友可能都注意到，连续三年黄仁勋在NVIDIA的GTC等发布活动上，都提出了发展DPU以促进边缘计算等发展的言论。今年最新的NVIDIA发布会，除了3090Ti外，就是新的DPU发展计划。自CPU、GPU后，DPU再次登台而且成为了新的“风口”。那么，它究竟是什么，吸引了从Intel到NVIDIA等传统巨头都纷纷投入？

整合旧的处理单元，专注处理数据

相信很多人对于CPU（中央处理器）已经非常熟悉了。灵活、响应迅速的CPU多年来一直是大多数计算机中唯一的可编程元件。

近年来，GPU（图形处理单元）逐渐成为了计算的中心。最初GPU是用来做功能强大的实时图形处理，现在凭借其优秀的并行处理能力，已经成为各种加速计算任务的理想选择。

这使GPU成为了人工智能、深度学习和大数据分析应用的关键。

过去十年中，计算已经不仅仅局限在个人电脑和服务器内，CPU和GPU已经被广泛地用于各个新型超大规模数据中心。

这些数据中心通过功能强大的新型处理器连接在一起，DPU（ Data Processing Unit ，数据处理器）已经成为了以数据为中心的加速计算模型的第三个计算单元。NVIDIA首席执行官黄仁勋在一次演讲中表示：“它将成为未来计算的三大支柱之一。”

“CPU用于通用计算，GPU用于加速计算，而数据中心中传输数据的DPU则进行数据处理。”

DPU是一种基于行业标准，高性能及软件可编程的多核CPU，核心是具有高性能网络接口、灵活、可编程的加速引擎，满足特定场景的计算需求。

DPU出现，因为CPU和GPU接近极限

从x86 CPU，到移动互联网时代的ARM CPU，构成了传统IT的硬件设备核心。随着区块链和3D、AI人工智能技术的发展，GPU又成为了计算能力的新规。然而到了万物互联的元宇宙时代，人们突然发现一个重要的问题：

无论是CPU还是GPU，它们的性能快不够用了。

1990年到2020年，万物互联（网络）速度核CPU速度增长的对比

CPU几乎快要触及半导体原料的物理效应极限，人类冲击2nm以下的工艺制程困难重重。GPU虽然凭借可接受的更大芯片体积以及并行化处理，还能通过堆叠的方式继续冲击性能，但是功耗已经大大提高到和节能环保背离，40系显卡需要千瓦级电源就是最好的个案。

传统提升CPU和GPU算力的主要途径，就是堆料，说白了就是不断增加内核的数量。CPU从最初的单核、到双核、四核，再到现在夸张的128核，这种简单粗暴的堆料方法已经走到了尽头：功耗的限制让传统制程和架构的提高有了极限。

芯片上的内核就像大楼的房间，当大楼总表的电力有限的时候，这些房间的电器不能同时开启，因此即便房间很多，能用起来的并不多，这就是12代酷睿为何发展出P、E核，ARM为啥从六七代开始就有了大小核之分的原因。

单个芯片的功耗并不能无限制增加，所以即便堆了很多内核，它们也无法同时高效工作，这就造成了CPU的性能瓶颈。

DPU领跑“领域架构”

领域专用架构（Domain Specific Architecture），也称作DSA。DPU就是其中的代表，其核心思想，是针对特定领域做芯片架构的优化，从而实现性能和功效的双重提升。

DPU正是通过架构优化、场景优化、软件优化，完成了在数据中心场景里，传统CPU已经无力估计的众多方面。

DPU本身是一种SOC（System On Chip，片上系统）芯片，它结合了：

行业标准的、高性能及软件可编程的多核CPU

通常基于已应用广泛的Arm架构，与其的SOC组件密切配合。例如NVIDIA的BlueField-3里有16个ARM A78内核，8MB L2、16MB L3 Cache。它还支持可编程的数据通路，包含16个内核、256线程。

高性能网络接口，能以线速或网络中的可用速度解析、处理数据，并高效地将数据传输到GPU和CPU。

以NVIDIA的DPU为例，从BlueField-2的200Gbps以太网或InfiniBand、PCIe Gen4x16支持，到BlueField-3的400Gbps以太网、PCIe Gen5x32支持，核心都是几何级提高芯片的网络核数据总线速度，提高数据处理效率。

各种灵活和可编程的加速引擎，可以卸载AI、机器学习、安全、电信和存储等应用，并提升性能。

DPU在芯片架构上进行了领域专用优化，比如BlueField里就集成了很多专用的硬件加速器，比如对Virtio、NVMe、IPSec等等数据中心常见协议的硬件模块。原本这些协议都是使用CPU执行开发者代码实现，现在直接通过DPU就可以用硬件实现了，就像硬件解码一样，效率大大提升。

所有这些DPU功能对于实现安全的、裸性能的、原生云计算的下一代云上大规模计算至关重要。

是网卡，更是DPU

来看看一个简单的DPU单元，所谓的smartNIC。

DPU可以用作独立的嵌入式处理器，但通常是被集成到SmartNIC（一种作为下一代服务器中关键组件的网卡）中。上图就是一张采用NVIDIA的BludField-2 DPU的SmartNIC。

为什么DPU采用SmartNIC的形态呢？

如果想通过蛮力在性能上击败传统的x86 核ARM架构的CPU，结果注定会失败，这样做既没有竞争力，也无法扩展。如果说一个传统 CPU尚且无法以每秒100 Gb的速度处理数据包，如何能期望一个嵌入式CPU做到？

某DPU系统通过内建的高速数据总线核模块，同时处理多路NVME SSD数据，实现高达1500万IOPS的4K读取性能

但换个思路，如果网卡足够强大和灵活，可以处理所有网络中的数据，而嵌入式CPU则被用来做控制路径的初始化和异常情况处理，一切就都解决了。

DPU如果专注处理海量特定数据，那么CPU方面就可以专注实用虚拟机等技术给用户提供更好体验

这就是DSA领域专用架构带来的DPU思想的精髓。根据具体的应用领域进行优化，帮传统CPU减负，任何可以不需要在CPU上运行的任务，都放在DPU上执行。

DPU兴起，就是因为它解决了现代数据中心里CPU解决不了的一系列难题，实现了架构优化、场景优化、软件优化。

老黄连续三年都提，这DPU是什么风口之物？

为您推荐

热门标签

​老黄连续三年都提，这DPU是什么风口之物？

为您推荐

热门标签

老黄连续三年都提，这DPU是什么风口之物？