什么是DPU 未來的DPU智能?卡硬件形態(tài)

2021-11-25 14:08:00

1.什么是DPU

DPU（Data Processing Unit）是以數(shù)據(jù)為中心構(gòu)造的專用處理器，采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施層資源虛擬化，支持存儲、安全、服務(wù)質(zhì)量管理等基礎(chǔ)設(shè)施層服務(wù)。2020年NVIDIA公司發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”，掀起了一波行業(yè)熱潮。DPU的出現(xiàn)是異構(gòu)計(jì)算的一個(gè)階段性標(biāo)志。與GPU的發(fā)展類似，DPU是應(yīng)用驅(qū)動的體系結(jié)構(gòu)設(shè)計(jì)的又一典型案例；但與GPU不同的是，DPU面向的應(yīng)用更加底層。DPU要解決的核心問題是基礎(chǔ)設(shè)施的“降本增效”，即將“CPU處理效率低下、GPU處理不了”的負(fù)載卸載到專用DPU，提升整個(gè)計(jì)算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本（TCO）。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路線發(fā)展的又一個(gè)里程碑。

關(guān)于DPU中“D”的解釋

DPU中的“D”有三種解釋：

（1）Data Processing Unit，即數(shù)據(jù)處理器。這種解釋把“數(shù)據(jù)”放在核心位置，區(qū)別于信號處理器、基帶處理器等通信相關(guān)的處理器對應(yīng)的“信號”，也區(qū)別于GPU對應(yīng)的圖形圖像類數(shù)據(jù)，這里的“數(shù)據(jù)”主要指數(shù)字化以后的各種信息，特別是各種時(shí)序化、結(jié)構(gòu)化的數(shù)據(jù)，比如大型的結(jié)構(gòu)化表格，網(wǎng)絡(luò)流中的數(shù)據(jù)包，海量的文本等等。DPU就是處理這類數(shù)據(jù)的專用引擎。

（2）Datacenter Processing Unit，即數(shù)據(jù)中心處理器。這種解釋把數(shù)據(jù)中心作為DPU的應(yīng)用場景，特別是隨著WSC（Warehouse-scale Computer）的興起，不同規(guī)模的數(shù)據(jù)中心成為了IT核心基礎(chǔ)設(shè)施。目前來看，DPU確實(shí)在數(shù)據(jù)中心中使用前景非常廣闊。但是計(jì)算中心的三大部分：計(jì)算、網(wǎng)絡(luò)、存儲，計(jì)算部分是CPU占主導(dǎo)，GPU輔助；網(wǎng)絡(luò)部分是路由器和交換機(jī)，存儲部分是高密度磁盤構(gòu)成的的RAID系統(tǒng)和SSD為代表非易失性存儲系統(tǒng)。在計(jì)算和網(wǎng)絡(luò)中扮演數(shù)據(jù)處理的芯片都可以稱之為Datacenter Processing Unit，所以這種說法相對比較片面。

（3）Data-centric Processing Unit，即以數(shù)據(jù)為中心的處理器。Data-centric，即數(shù)據(jù)為中心，是處理器設(shè)計(jì)的一種理念，相對于“Control-centric”即控制為中心。經(jīng)典的馮諾依曼體系結(jié)構(gòu)就是典型的控制為中心的結(jié)構(gòu)，在馮諾依曼經(jīng) 典計(jì)算模型中有控制器、計(jì)算器、存儲器、輸入和輸出，在指令系統(tǒng)中的表現(xiàn) 是具有一系列非常復(fù)雜的條件跳轉(zhuǎn)和尋址指令。而數(shù)據(jù)為中心的理念與數(shù)據(jù)流（Data Flow）計(jì)算一脈相承，是一種實(shí)現(xiàn)高效計(jì)算的方法。同時(shí)，現(xiàn)在試圖打破訪存墻（Memory Wall）的各種近存（Near-memory）計(jì)算、存內(nèi)（Inmemory）計(jì)算、存算一體等技術(shù)路線，也符合數(shù)據(jù)為中心的設(shè)計(jì)理念。

以上三種關(guān)于“D”的解釋，從不同角度反映DPU的特征，都有一定的可取之處，筆者認(rèn)為可以作為不同的三個(gè)維度來理解DPU的內(nèi)涵。

DPU的作用

DPU最直接的作用是作為CPU的卸載引擎，接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù)，釋放CPU的算力到上層應(yīng)用。以網(wǎng)絡(luò)協(xié)議處理為例，要線速處理10G的網(wǎng)絡(luò)需要的大約4個(gè)Xeon CPU的核，也就是說，單是做網(wǎng)絡(luò)數(shù)據(jù)包處理，就可以占去一個(gè)8核高端CPU一半的算力。如果考慮40G、100G的高速網(wǎng)絡(luò)，性能的開銷就更加難以承受了。Amazon把這些開銷都稱之為 “Datacenter Tax”，即還未運(yùn)行業(yè)務(wù)程序，先接入網(wǎng)絡(luò)數(shù)據(jù)就要占去的計(jì)算資源。AWS Nitro產(chǎn)品家族旨在將數(shù)據(jù)中心開銷（為虛擬機(jī)提供遠(yuǎn)程資源，加密解密，故障跟蹤，安全策略等服務(wù)程序）全部從CPU卸載到Nitro加速卡上，將給上層應(yīng)用釋放30%的原本用于支付“Tax”的算力！

DPU可以成為新的數(shù)據(jù)網(wǎng)關(guān)，將安全隱私提升到一個(gè)新的高度。在網(wǎng)絡(luò)環(huán)境下，網(wǎng)絡(luò)接口是理想的隱私的邊界，但是加密、解密算法開銷都很大，例如國密標(biāo)準(zhǔn)的非對稱加密算法SM2、哈希算法SM3和對稱分組密碼算法SM4。如果用CPU來處理，就只能做少部分?jǐn)?shù)據(jù)量的加密。在未來，隨著區(qū)塊鏈承載的業(yè)務(wù)的逐漸成熟，運(yùn)行共識算法POW，驗(yàn)簽等也會消耗掉大量的CPU算力。而這些都可以通過將其固化在DPU中來實(shí)現(xiàn)，甚至DPU將成為一個(gè)可信根。

DPU也可以成為存儲的入口，將分布式的存儲和遠(yuǎn)程訪問本地化。隨著 SSD性價(jià)比逐漸可接受，部分存儲遷移到SSD器件上已經(jīng)成為可能，傳統(tǒng)的面向機(jī)械硬盤的SATA協(xié)議并不適用于SSD存儲，所以，將SSD通過本地PCIe或高速網(wǎng)絡(luò)接入系統(tǒng)就成為必選的技術(shù)路線。NVMe（Non Volatile Memory Express）就是用于接入SSD存儲的高速接口標(biāo)準(zhǔn)協(xié)議，可以通過PCIe作為底層傳輸協(xié)議，將SSD的帶寬優(yōu)勢充分發(fā)揮出來。同時(shí)，在分布式系統(tǒng)中，還可通過NVMe over Fabrics（NVMe-oF）協(xié)議擴(kuò)展到InfiniBand、Ethernet、或Fibre channel節(jié)點(diǎn)中，以RDMA的形式實(shí)現(xiàn)存儲的共享和遠(yuǎn)程訪問。這些新的協(xié)議處理都可以集成在DPU中以實(shí)現(xiàn)對CPU的透明處理。進(jìn)而，DPU將可能承接各種互連協(xié)議控制器的角色，在靈活性和性能方面達(dá)到一個(gè)更優(yōu)的平衡點(diǎn)。

DPU將成為算法加速的沙盒，成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC，在CXL、CCIX等標(biāo)準(zhǔn)組織所倡導(dǎo)CPU、GPU與DPU等數(shù)據(jù)一致性訪問協(xié)議的鋪墊下，將更進(jìn)一步掃清DPU編程障礙，結(jié)合FPGA等可編程器件，可定制硬件將有更大的發(fā)揮空間，“軟件硬件化”將成為常態(tài)，異構(gòu)計(jì)算的潛能將因各種DPU的普及而徹底發(fā)揮出來。在出現(xiàn)“Killer Application”的領(lǐng)域都有可能出現(xiàn)與之相對應(yīng)的DPU，諸如傳統(tǒng)數(shù)據(jù)庫應(yīng)用如OLAP、OLTP， 5G 邊緣計(jì)算，智能駕駛V2X等等。

2.DPU的發(fā)展背景

DPU的出現(xiàn)是異構(gòu)計(jì)算的又一個(gè)階段性標(biāo)志。摩爾定律放緩使得通用CPU 性能增長的邊際成本迅速上升，數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長（面積歸一化之后）僅有3%左右1，但計(jì)算需求卻是爆發(fā)性增長，這幾乎是所有專用計(jì)算芯片得以發(fā)展的重要背景因素。以AI芯片為例，最新的GPT-3等千億級參數(shù)的超大型模型的出現(xiàn)，將算力需求推向了一個(gè)新的高度。DPU也不例外。隨著2019年我國以信息網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施為代表的“新基建”戰(zhàn)略帷幕的拉開，5G、千兆光纖網(wǎng)絡(luò)建設(shè)發(fā)展迅速，移動互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領(lǐng)域發(fā)展日新月異。云計(jì)算、數(shù)據(jù)中心、智算中心等基礎(chǔ)設(shè)施快速擴(kuò)容。網(wǎng)絡(luò)帶寬從主流 10G朝著25G、40G、100G、200G甚至400G發(fā)展。網(wǎng)絡(luò)帶寬和連接數(shù)的劇增使得數(shù)據(jù)的通路更寬、更密，直接將處于端、邊、云各處的計(jì)算節(jié)點(diǎn)暴露在了劇增的數(shù)據(jù)量下，而CPU的性能增長率與數(shù)據(jù)量增長率出現(xiàn)了顯著的“剪刀差”現(xiàn)象。所以，尋求效率更高的計(jì)算芯片就成為了業(yè)界的共識。DPU芯片就是在這樣的趨勢下提出的。

帶寬增長率(RBP)不平衡

摩爾定律的放緩與全球數(shù)據(jù)量的爆炸式增長之間的矛盾正在迅速加劇，通常被視為處理器專業(yè)化的背景。雖然所謂的硅摩爾定律已經(jīng)明顯放緩，但“數(shù)據(jù)摩爾定律”已經(jīng)到來。IDC數(shù)據(jù)顯示，過去10年全球數(shù)據(jù)量年復(fù)合增長率接近50%，進(jìn)一步預(yù)測計(jì)算能力需求將每4個(gè)月翻一番。因此，有必要尋找能夠帶來比通用處理器更快的計(jì)算能力增長的新計(jì)算芯片，DPU應(yīng)運(yùn)而生。這個(gè)背景雖然在某種程度上是合理的，但還是太模糊，沒有回答DPU新的原因是什么，什么“量變”導(dǎo)致“質(zhì)變”？

從各種制造商公布的DPU架構(gòu)來看，雖然結(jié)構(gòu)不同，但都強(qiáng)調(diào)網(wǎng)絡(luò)處理能力。從這個(gè)角度來看，DPU是一個(gè)很強(qiáng)的IO芯片，這也是DPU和CPU最大的區(qū)別。CPU的IO性能主要體現(xiàn)在高速的前端總線(FSB，英特爾系統(tǒng)中的前端總線)。CPU通過FSB連接到北橋芯片組，再連接到主存系統(tǒng)和其他高速外設(shè)(主要是PCIe設(shè)備)。目前更新后的CPU通過集成內(nèi)存控制器等手段削弱了北橋芯片的功能，但其本質(zhì)保持不變。CPU處理網(wǎng)絡(luò)處理的能力體現(xiàn)在網(wǎng)卡訪問鏈路層的數(shù)據(jù)幀，然后通過操作系統(tǒng)(OS)的內(nèi)核模式發(fā)起DMA中斷響應(yīng)，并調(diào)用相應(yīng)的協(xié)議解析器獲取網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)(雖然也有一些技術(shù)可以在用戶模式下通過輪詢直接獲取網(wǎng)絡(luò)數(shù)據(jù)而不需要內(nèi)核模式中斷，比如英特爾的DPDK、Xilinx的Onload等。但目的是減少中斷開銷和從內(nèi)核模式到用戶模式的切換開銷，這不是根本?？梢钥闯觯珻PU通過非常間接的手段支持網(wǎng)絡(luò)IO，CPU的前端總線帶寬主要是為了匹配主存(尤其是DDR)的帶寬，而不是網(wǎng)絡(luò)IO的帶寬。

相比之下，DPU的IO帶寬幾乎可以和網(wǎng)絡(luò)帶寬持平。例如，如果網(wǎng)絡(luò)支持25G，那么DPU必須支持25G。從這個(gè)意義上說，DPU繼承了網(wǎng)卡芯片的一些特點(diǎn)，但與網(wǎng)卡芯片不同的是，DPU不僅僅是對鏈路層的數(shù)據(jù)幀進(jìn)行分析，更是對數(shù)據(jù)內(nèi)容進(jìn)行直接的處理和復(fù)雜的計(jì)算。因此，DPU是在支持強(qiáng)IO的基礎(chǔ)上，擁有強(qiáng)大計(jì)算能力的芯片。簡而言之，DPU是一個(gè)IO密集型芯片；相比之下，DPU是一個(gè)計(jì)算密集型芯片。

此外，通過比較網(wǎng)絡(luò)帶寬與一般CPU的增長趨勢，我們可以發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象：帶寬與性能增長率之比的不平衡(RBP)。將RBP定義為網(wǎng)絡(luò)帶寬的增長率高于CPU性能的增長率，即RBP=BWGR/perf . gr如圖1-1說明將Mellanox的ConnectX系列網(wǎng)卡的帶寬作為網(wǎng)絡(luò)IO的情況，將英特爾系列產(chǎn)品的性能作為CPU的情況，定義了一個(gè)新的指標(biāo)“帶寬性能增長率”來反映趨勢變化。

2010年之前，網(wǎng)絡(luò)帶寬的年增長率在30%左右，2015年略微增長到35%，然后近幾年達(dá)到45%。相應(yīng)的，CPU的性能增長也從10年前的23%下降到了12%，最近幾年更是直接下降到了3%。在這三個(gè)時(shí)間段，RBP指數(shù)從1左右漲到了3，近幾年更是突破了10！如果網(wǎng)絡(luò)帶寬增長率幾乎等于CPU性能增長率，RGR ~ 1，IO壓力還沒有出現(xiàn)，那么當(dāng)RBP目前達(dá)到10倍時(shí)，CPU幾乎無法直接應(yīng)對網(wǎng)絡(luò)帶寬增長率。RBP指數(shù)近年來的大幅上漲，可能是DPU最終等待機(jī)會“誕生”的重要原因之一。

借助異構(gòu)計(jì)算發(fā)展趨勢

DPU首先充當(dāng)計(jì)算卸載的引擎，直接效果就是“減輕”CPU的負(fù)擔(dān)。DPU的部分功能可以在早期的TOE(TCP/IP卸載引擎)中看到。顧名思義，TOE就是把CPU處理TCP協(xié)議的任務(wù)“卸載”到網(wǎng)卡上。傳統(tǒng)的TCP軟件處理方式雖然層次清晰，但逐漸成為網(wǎng)絡(luò)帶寬和時(shí)延的瓶頸。軟件處理對CPU的占用也會影響CPU處理其他應(yīng)用的性能。TCP卸載引擎(TOE)技術(shù)，通過將TCP和IP協(xié)議的處理過程移交給網(wǎng)絡(luò)接口控制器進(jìn)行處理，不僅通過硬件加速提高了網(wǎng)絡(luò)延遲和帶寬，還顯著降低了CPU處理協(xié)議的壓力。優(yōu)化有三個(gè)方面：1)隔離網(wǎng)絡(luò)中斷，2)減少內(nèi)存數(shù)據(jù)拷貝，3)基于硬件的協(xié)議分析。這三個(gè)技術(shù)點(diǎn)已經(jīng)逐漸發(fā)展成為數(shù)據(jù)平面計(jì)算的三大技術(shù)，也是DPU普遍需要支持的技術(shù)點(diǎn)。比如NVMe協(xié)議用輪詢策略代替中斷策略，充分發(fā)揮高速存儲介質(zhì)的帶寬優(yōu)勢；DPDK采用用戶模式調(diào)用，開發(fā)“Kernelbypassing”機(jī)制，實(shí)現(xiàn)零拷貝(ZEOR-copy)；DPU特定應(yīng)用核心，如復(fù)雜校驗(yàn)和計(jì)算、數(shù)據(jù)包格式分析、查找表、IP安全(IPSec)支持等?？梢钥醋魇菂f(xié)議處理的硬件支持。所以，TOE基本上可以算是DPU的雛形。

延續(xù)TOE的思路，將更多的計(jì)算任務(wù)卸載到網(wǎng)卡端進(jìn)行處理，推動了SmartNIC技術(shù)的發(fā)展。普通智能網(wǎng)卡的基本結(jié)構(gòu)是以高速網(wǎng)卡為基本功能，以高性能FPGA芯片為計(jì)算擴(kuò)展，實(shí)現(xiàn)用戶自定義的計(jì)算邏輯，達(dá)到計(jì)算加速的目的。然而，這種“網(wǎng)卡FPGA”模式并沒有把智能網(wǎng)卡變成絕對主流的計(jì)算設(shè)備。很多智能網(wǎng)卡產(chǎn)品都作為簡單的FPGA加速卡使用，既利用了FPGA的優(yōu)勢，又繼承了所有FPGA的局限性。DPU是現(xiàn)有智能網(wǎng)卡的集成，可以看到以前智能網(wǎng)卡的很多影子，但明顯高于以前任何一個(gè)智能網(wǎng)卡的定位。

可見，DPU其實(shí)在業(yè)內(nèi)已經(jīng)孕育了很長時(shí)間。從早期的網(wǎng)絡(luò)協(xié)議處理和卸載到后續(xù)的網(wǎng)絡(luò)、存儲和虛擬化卸載，其作用仍然非常顯著。然而，在此之前，DPU只是“名義上的”，現(xiàn)在是時(shí)候邁出新的一步了。

3.3的發(fā)展歷史。公用事業(yè)局(Department of Public Utilities)

隨著云平臺虛擬化技術(shù)的發(fā)展，智能網(wǎng)卡的發(fā)展基本可以分為三個(gè)階段(如圖如圖1-2所示):

6999c1fa-3b8a-11ec-82a9-dac502259ad0.png

圖1-2智能卡開發(fā)的三個(gè)階段

階段：基本功能卡

基本網(wǎng)卡(即普通網(wǎng)卡)提供2x10G或2x25G帶寬吞吐量，硬件卸載能力較少，主要是Checksum、LRO/LSO、SR-IOV支持，多隊(duì)列能力有限。云平臺虛擬化網(wǎng)絡(luò)中，基本功能網(wǎng)卡提供虛擬機(jī)(VM)網(wǎng)絡(luò)訪問的方式主要有三種：操作系統(tǒng)內(nèi)核驅(qū)動接管網(wǎng)卡，將網(wǎng)絡(luò)流量分配給VM；OVS-DPDK接管網(wǎng)卡，將網(wǎng)絡(luò)流量分配給虛擬機(jī)(VM)；并在高性能場景中通過SR-IOV為虛擬機(jī)提供網(wǎng)絡(luò)訪問能力。

階段：硬件卸載卡

可以認(rèn)為是第一代智能網(wǎng)卡，具有豐富的硬件卸載能力，典型的有OVS Fastpath硬件卸載、基于RoCEv1和RoCEv2的RDMA網(wǎng)絡(luò)硬件卸載、無損網(wǎng)絡(luò)能力(PFC、ECN、ETS等)的硬件卸載。)在融合網(wǎng)絡(luò)中，NVMe-oF存儲域的硬件卸載，以及安全傳輸?shù)臄?shù)據(jù)平面卸載等。在此期間，智能網(wǎng)卡主要卸載數(shù)據(jù)平面。

第三階段：DPU智能卡

可以認(rèn)為是第二代智能網(wǎng)卡。在第一代智能網(wǎng)卡上增加CPU可以用來卸載控制平面的任務(wù)和數(shù)據(jù)平面的一些靈活復(fù)雜的任務(wù)。目前，DPU智能網(wǎng)卡的特點(diǎn)首先是支持PCIe根聯(lián)合體模式和端點(diǎn)模式。配置為PCIe根聯(lián)合體模式時(shí)，可實(shí)現(xiàn)NVMe存儲控制器，與NVMe SSD磁盤一起搭建存儲服務(wù)器。

此外，由于大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的需求，對無損網(wǎng)絡(luò)的要求更加嚴(yán)格，需要解決數(shù)據(jù)中心網(wǎng)絡(luò)中流量和大象流帶來的網(wǎng)絡(luò)擁塞和延遲問題。各大云廠商都提出了自己的對策，如阿里巴巴云的高精度擁塞控制(HPCC，高精度共識控制)，AWS的可伸縮可靠數(shù)據(jù)報(bào)(SRD)等。

DPU智能網(wǎng)卡將會引入更先進(jìn)的方法來解決這類問題，比如DPU智能網(wǎng)卡上的全新解決方案——可替換的TrueFabric。此外，業(yè)界在Hypervisor中提出了網(wǎng)絡(luò)、存儲、安全全棧卸載的發(fā)展方向，以英特爾為代表提出了IPU，將基礎(chǔ)設(shè)施的所有功能卸載到智能網(wǎng)卡上，可以充分釋放之前用于Hypervisor管理的CPU功率。

基于的未來DPU智能卡硬件形式

隨著越來越多的功能被添加到智能網(wǎng)卡中，它的功率將很難被限制在75W，這就需要一個(gè)獨(dú)立的供電系統(tǒng)。因此，未來智能網(wǎng)卡可能有三種形式：

(1)對于獨(dú)立供電的智能網(wǎng)卡，需要考慮網(wǎng)卡狀態(tài)與計(jì)算服務(wù)之間的低級信號識別，以及智能網(wǎng)卡在計(jì)算系統(tǒng)啟動期間或啟動后是否已經(jīng)進(jìn)入服務(wù)狀態(tài)，這些都需要探索解決。

(2)沒有PCIe接口的DPU智能網(wǎng)卡可以組成DPU資源池，負(fù)責(zé)網(wǎng)絡(luò)功能，如負(fù)載均衡、訪問控制、防火墻設(shè)備等。管理軟件可以通過智能網(wǎng)卡管理接口直接定義相應(yīng)的網(wǎng)絡(luò)功能，作為一個(gè)沒有PCIe接口的虛擬化網(wǎng)絡(luò)功能集群提供相應(yīng)的網(wǎng)絡(luò)能力。

(3)具有多個(gè)PCIe接口和多個(gè)網(wǎng)絡(luò)端口的DPU芯片。例如，F(xiàn)ungible F1芯片支持16個(gè)雙模PCIe控制器，可以配置為Root Complex模式或Endpoint模式以及8x100G網(wǎng)絡(luò)接口。PCIe Gen3 x8接口可支持8臺Dual-Socket計(jì)算服務(wù)器，網(wǎng)絡(luò)側(cè)提供8x100G帶寬網(wǎng)絡(luò)端口。

作為一種新型專用處理器，隨著需求側(cè)的變化，DPU將成為未來計(jì)算系統(tǒng)的重要組成部分，對支撐下一代數(shù)據(jù)中心將起到至關(guān)重要的作用。

4.4之間的關(guān)系。DPU和中央處理器和圖形處理器

CPU是整個(gè)IT生態(tài)系統(tǒng)的定義者。無論是服務(wù)器端的x86，還是移動端的ARM，都各自構(gòu)建了穩(wěn)定的生態(tài)系統(tǒng)，既形成了技術(shù)生態(tài)系統(tǒng)，又形成了封閉的價(jià)值鏈。

GPU是執(zhí)行規(guī)則計(jì)算、如圖-shaped渲染的主要芯片。隨著NVIDIA對通用GPGPU)和CUDA編程框架的推廣，GPU已經(jīng)成為如圖圖像、深度學(xué)習(xí)、矩陣運(yùn)算等數(shù)據(jù)并行任務(wù)中的主計(jì)算引擎，也是高性能計(jì)算中最重要的輔助計(jì)算單元。在2021年6月公布的Top500高性能計(jì)算機(jī)(超級計(jì)算機(jī))前10名中，有6臺(第2、3、5、6、8、9)搭載了NVIDIA的GPU。

數(shù)據(jù)中心不同于超極計(jì)算機(jī)，其主要面向科學(xué)計(jì)算，如大型飛機(jī)研制、石油勘探、新藥研發(fā)、天氣預(yù)報(bào)、電磁環(huán)境計(jì)算等應(yīng)用，其性能是主要指標(biāo)，對接入帶寬要求不高。但數(shù)據(jù)中心面臨云計(jì)算的商業(yè)應(yīng)用，對接入帶寬、可靠性、容災(zāi)、靈活擴(kuò)展等有更高的要求。以及虛擬機(jī)、容器云、并行編程框架、內(nèi)容分發(fā)網(wǎng)絡(luò)等技術(shù)。與之配套開發(fā)的，都是為了更好地支持電子商務(wù)、支付、視頻流、網(wǎng)盤、辦公OA等上層商業(yè)應(yīng)用。然而，這些IaaS和PaaS層的服務(wù)成本極高。亞馬遜曾宣布AWS的系統(tǒng)成本超過30%。如果需要更好的服務(wù)質(zhì)量，網(wǎng)絡(luò)、存儲和安全等基礎(chǔ)設(shè)施服務(wù)的成本將會更高。

這些基礎(chǔ)層的應(yīng)用類型與CPU架構(gòu)匹配度低，導(dǎo)致計(jì)算效率低?，F(xiàn)有的CPU架構(gòu)有兩類：多核架構(gòu)(幾個(gè)或幾十個(gè)內(nèi)核)和眾核架構(gòu)(幾百個(gè)或更多內(nèi)核)，每種架構(gòu)都支持唯一的標(biāo)準(zhǔn)通用指令集之一，如x86、ARM等。以指令集為邊界，軟硬件分開獨(dú)立開發(fā)，迅速推動了軟件產(chǎn)業(yè)與微處理器產(chǎn)業(yè)的協(xié)同發(fā)展。然而，隨著軟件復(fù)雜性的增加，軟件的生產(chǎn)力越來越受到重視，軟件工程學(xué)科也更加關(guān)注如何高效地構(gòu)建大規(guī)模軟件系統(tǒng)，而不是如何用更少的硬件資源獲得盡可能高的執(zhí)行性能。業(yè)內(nèi)有個(gè)綽號叫“安迪比爾定律”。它的內(nèi)容是“安迪給的，比爾拿走的”。安迪指的是英特爾前CEO安迪格羅夫，比爾指的是微軟前CEO比爾蓋茨，意思是硬件性能的提升很快被軟件消耗掉。

就像CPU在圖像處理上不夠高效一樣，還有大量的基礎(chǔ)層應(yīng)用在CPU處理上也是低效的，比如網(wǎng)絡(luò)協(xié)議處理、交換路由計(jì)算、加解密、數(shù)據(jù)壓縮等計(jì)算密集型任務(wù)，以及支持分布式處理的數(shù)據(jù)一致性協(xié)議，比如RAFT等。這些數(shù)據(jù)或者通過網(wǎng)絡(luò)IO或者通過板級高速PCIe總線接入系統(tǒng)，然后通過共享主存通過DMA機(jī)制提供給CPU或GPU。要處理大量的上層應(yīng)用，要維護(hù)底層軟件的基礎(chǔ)設(shè)施，還要處理各種特殊的IO協(xié)議，復(fù)雜的計(jì)算任務(wù)讓CPU不堪重負(fù)。

5.工業(yè)化的機(jī)會。公用事業(yè)局(Department of Public Utilities)

數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施最重要的組成部分，近十年來成為各大高端芯片廠商關(guān)注的焦點(diǎn)。各大廠商用全新的DPU理念重新包裝后，將原有的產(chǎn)品和技術(shù)投放市場。

與此同時(shí)，一些互聯(lián)網(wǎng)廠商，如海外的谷歌、亞馬遜、國內(nèi)的阿里巴巴等巨頭紛紛啟動了自研芯片計(jì)劃，研發(fā)重點(diǎn)放在數(shù)據(jù)處理器的高性能專用處理器芯片上，希望改善云端服務(wù)器的成本結(jié)構(gòu)和單位能耗的性能水平。數(shù)據(jù)預(yù)測，DPU在云計(jì)算市場的應(yīng)用需求最大，市場規(guī)模將隨著云計(jì)算數(shù)據(jù)中心的迭代而增大。到2025年，僅中國的市場容量就將達(dá)到40億美元。

什么是DPU 未來的DPU智能?卡硬件形態(tài)