登錄 注冊(cè)
購(gòu)物車0
TOP
Imgs 行業(yè)資訊

0

繞開CPU和內(nèi)存,你瀏覽的內(nèi)容或來(lái)自SSD的推薦

2021-12-17 14:14:32
相信很多人還記得AI芯片公司世界語(yǔ)今年發(fā)布的千核RISC-V處理器ET-SoC-1。隨著這款7nm芯片在第二季度的成功流回,世界語(yǔ)得以在芯片上運(yùn)行代碼,并嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在最近的三星代工活動(dòng)上,世界語(yǔ)披露了其AI-SSD的概念模型。
個(gè)性化推薦系統(tǒng)的挑戰(zhàn)
當(dāng)我們刷短視頻,聽歌、瀏覽社交網(wǎng)絡(luò)時(shí),部分內(nèi)容來(lái)自我們關(guān)注過(guò)的用戶,但絕大多數(shù)來(lái)自推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確性很大程度上決定了軟件的用戶體驗(yàn),也是當(dāng)今互聯(lián)網(wǎng)經(jīng)濟(jì)體系的命脈。然而,這種推薦往往是服務(wù)器上最大的AI處理負(fù)載。優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,降低服務(wù)器的成本。
DLRM深度學(xué)習(xí)推薦模型/元
說(shuō)到推薦系統(tǒng),就不得不說(shuō)到嵌入,這是目前推薦系統(tǒng)的關(guān)鍵組成部分。雖然每個(gè)家族都有不同的推薦模型,但或多或少都是利用查找嵌入表的方法來(lái)實(shí)現(xiàn)分類特征的處理。在這個(gè)過(guò)程中,嵌入式表存儲(chǔ)在DRAM中,CPU對(duì)嵌入式表進(jìn)行操作,對(duì)內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬方面,美團(tuán)、騰訊等廠商都采用了多GPU加速來(lái)充分利用GPU帶寬,但這種方式還是需要多GPU或多服務(wù)器的支持來(lái)解決容量問(wèn)題。雖然廠商也可以選擇HBM這樣的大帶寬內(nèi)存方案,但成本增加是巨大的。
據(jù)Meta介紹,在臉書社交網(wǎng)站的個(gè)性化推薦系統(tǒng)中,大規(guī)模的嵌入式表可以達(dá)到百萬(wàn)行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個(gè)神經(jīng)推薦模型中的所有嵌入式表甚至需要TB級(jí)別以上的空間。比如Meta的Instagram已經(jīng)在開發(fā)10TB的推薦模型,百度的廣告排名模型也達(dá)到了10TB。這種容量要求對(duì)于硬盤來(lái)說(shuō)可能足夠了,但是對(duì)于內(nèi)存來(lái)說(shuō)太奢侈了。
因此,為了解決容量問(wèn)題,很多人也提出了固態(tài)硬盤的存儲(chǔ)解決方案。目前,傳統(tǒng)固態(tài)硬盤雖然可以輕松存儲(chǔ)大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬更差,顯著降低了推理性能。
專為推薦而設(shè)計(jì)的固態(tài)硬盤
世界語(yǔ)與三星合作開發(fā)了AI-SSD的概念模型,研究將所有嵌入式表處理移入SSD的影響,從而消除了推薦系統(tǒng)中CPU和DRAM的鏈接。三星展示了將使用世界語(yǔ)的ET-SoC-1芯片與其PM9A3 SSD相結(jié)合的成果。
在AI-SSD中,所有的嵌入式表都存儲(chǔ)在SSD中,CPU負(fù)責(zé)所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD中的ET-SoC-1負(fù)責(zé)嵌入式表的查詢和交互操作。此外,由于選擇了這種內(nèi)存計(jì)算方式,使得PCIe鏈路上的數(shù)據(jù)傳輸最小化,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接發(fā)送給CPU生成推薦結(jié)果。
AI-SSD帶寬性能測(cè)試結(jié)果/世界語(yǔ)
在測(cè)試中,世界語(yǔ)選擇了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD進(jìn)行對(duì)比。在不同的型號(hào)配置下,AI-SSD的讀取帶寬可以提高10到100倍,并且?guī)捒梢噪S著使用內(nèi)核數(shù)量的增加而繼續(xù)線性增加。
請(qǐng)注意,在這次測(cè)試中,世界語(yǔ)最多只使用了四個(gè)Minion  Shire,每個(gè)節(jié)點(diǎn)只有32個(gè)內(nèi)核。整個(gè)ET-SoC-1有34個(gè)子節(jié)點(diǎn)和1088個(gè)內(nèi)核。如果所有計(jì)算單元都用于SSD,提升將達(dá)到數(shù)百倍甚至更多,非常適合數(shù)據(jù)中心級(jí)別的SSD產(chǎn)品。ET-SoC-1的可擴(kuò)展性也可以使其減少內(nèi)核數(shù)量,用于一些邊緣推薦系統(tǒng)。
計(jì)算交換空間
但是,即使使用AI-SSD,也是增加硬件成本的一種方式。除了不缺錢的大公司會(huì)用這款產(chǎn)品,一些小的互聯(lián)網(wǎng)應(yīng)用可能不會(huì)直接選擇替代SSD的方式。因此,只有一種方法可以繼續(xù)優(yōu)化推薦模型。
佐治亞理工學(xué)院和梅塔學(xué)院為DLRM提出了一種張量訓(xùn)練壓縮方法,命名為TT-Rec。這種方法通過(guò)將嵌入表乘以幾個(gè)小矩陣來(lái)壓縮嵌入表,進(jìn)一步減小了嵌入表的大小。然而,這種額外的計(jì)算是不可避免的額外消耗,但幸運(yùn)的是,它的評(píng)估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測(cè)試訓(xùn)練下,TT-Rec將數(shù)據(jù)分別從2.16GB和12.57GB壓縮到18.36MB和0.11GB,整體大小壓縮超過(guò)100倍,甚至幾乎沒(méi)有精度損失。額外的操作體現(xiàn)在訓(xùn)練時(shí)間上,分別增加了14.3%和13.9%。因此,在實(shí)際使用中,我們必須在記憶容量、模型精度和訓(xùn)練時(shí)間之間做出一定的權(quán)衡。
總結(jié)
雖然從推薦系統(tǒng)配置的角度來(lái)看,還有很多可供選擇的解決方案,但關(guān)于存儲(chǔ)與計(jì)算融合的研究已經(jīng)全面鋪開。存儲(chǔ)市場(chǎng)正在迅速與計(jì)算市場(chǎng)重疊。三星、西數(shù)、希捷等存儲(chǔ)廠商紛紛開始這種布局,傳統(tǒng)的馮諾依曼架構(gòu)將被近數(shù)據(jù)處理取代。

高都電子,為客戶創(chuàng)造價(jià)值!

雙面板免費(fèi)加費(fèi),四層板加急打樣,厚銅電路板打樣

Xcm