^{<style id="3hziu"></style>}

燧原科技如何立足于國產(chǎn)云端AI算力攻克通用性與性能雙重挑

2021-11-20 13:54:03

由中國工程院信息與電子工程學部主辦，浪潮信息承辦，2021年人工智能計算大會（AICC）于北京成功召開。作為全球AI計算領(lǐng)域最具影響力的技術(shù)盛會，本次大會以“智算·新際”為主題，邀請到眾多專家學者與產(chǎn)業(yè)領(lǐng)袖，就智能算力發(fā)展、人工智能產(chǎn)業(yè)創(chuàng)新以及產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型展開精彩分享。燧原科技副總裁鄧輝先生受邀出席“AI芯片創(chuàng)新技術(shù)”分論壇，并就燧原科技如何立足于國產(chǎn)云端AI算力攻克通用性與性能雙重挑戰(zhàn)發(fā)表演講。

起點

長期處于自主創(chuàng)新空白的云端訓(xùn)練AI算力一切要從2012年那場改變?nèi)斯ぶ悄馨l(fā)展史的ImageNet圖像分類競賽開始談起。在當時的比賽中，“深度學習之父”、圖靈獎獲得者——多倫多大學Geoffrey Hinton教授首次提出深度卷積神經(jīng)網(wǎng)絡(luò)模型“AlexNet”，參數(shù)量達6000萬。AlexNet的出現(xiàn)是人工智能技術(shù)發(fā)展史上重要的轉(zhuǎn)折點，它將沉寂已久的深度學習技術(shù)再次推至歷史舞臺。除了革命性的“大模型”，Geoffrey Hinton教授創(chuàng)新性地采用了異構(gòu)算力GPU作為訓(xùn)練加速資源。“AI加速”這個概念由此進入廣大AI科研工作者與產(chǎn)業(yè)落地先鋒的視野。

新一輪技術(shù)文明由此開始，可這并沒有帶來我國自主創(chuàng)新AI算力的繁榮，一直以來，AI加速產(chǎn)品與技術(shù)都被GPU廠商所壟斷，尤其是在云端訓(xùn)練領(lǐng)域，由于云端數(shù)據(jù)中心整體架構(gòu)的高度復(fù)雜性、大規(guī)模分布式AI訓(xùn)練帶來的巨大挑戰(zhàn)及其本身要支撐的業(yè)務(wù)多樣性等原因，云端訓(xùn)練是國內(nèi)廠商切入難度最為高的一個領(lǐng)域，長期處于空白的狀態(tài)，燧原科技作為行業(yè)領(lǐng)頭羊于2019年發(fā)布邃思1.0云端訓(xùn)練芯片，開始了攻堅技術(shù)壁壘、打破壟斷的征程。

挑戰(zhàn)

云端專用AI訓(xùn)練產(chǎn)品的性能與通用性互聯(lián)網(wǎng)是人工智能技術(shù)與產(chǎn)業(yè)發(fā)展的沃土，人工智能在互聯(lián)網(wǎng)的廣泛應(yīng)用得益于各類深入人們生活的終端應(yīng)用所產(chǎn)生的大量數(shù)據(jù)，而云計算作為關(guān)鍵的底層技術(shù)支撐，正與互聯(lián)網(wǎng)共同以孿生體姿態(tài)不斷地蓬勃發(fā)展，為我們帶來了空前的數(shù)據(jù)井噴與突破人類認知的巨量模型，對超強算力產(chǎn)生了爆炸性的需求；傳統(tǒng)GPU架構(gòu)雖然早期開創(chuàng)了人工智能發(fā)展的篇章，但隨著人工智能產(chǎn)業(yè)蓬勃發(fā)展，在規(guī)模效應(yīng)的驅(qū)使下，DSA架構(gòu)帶來的更經(jīng)濟的成本與更高效的計算能力使得專用AI訓(xùn)練產(chǎn)品變得越來越有優(yōu)勢。然而由于專用AI訓(xùn)練產(chǎn)品天生缺乏生態(tài)積累，在模型泛化與通用性上一直是業(yè)界痛點。因此如何保證比GPU更高效的AI模型計算能力，同時兼顧一定的通用性是云端AI訓(xùn)練芯片面臨的最大挑戰(zhàn)。燧原科技副總裁鄧輝先生表示：“我們把性能與通用性作為產(chǎn)品成功最重要的衡量標準，經(jīng)過3年的努力，這兩方面的能力在我們第二代產(chǎn)品上取得飛躍。”

燧原

中國首家發(fā)布二代云端訓(xùn)練加速產(chǎn)品組合的企業(yè)燧原科技以助力發(fā)展我國集成電路和人工智能產(chǎn)業(yè)、推動AI算力普惠化為使命，秉承“做大芯片、拼硬科技”的原則，自2019年12月推出第一代云端訓(xùn)練芯片邃思1.0以后，率先實現(xiàn)國產(chǎn)AI芯片數(shù)據(jù)中心與千卡液冷集群的商業(yè)落地，并于2021年7月在世界人工智能大會（WAIC）發(fā)布邃思2.0，是中國唯一一家推出二代云端訓(xùn)練加速產(chǎn)品組合的企業(yè)。

基于燧原科技自研的GCU-CARE計算引擎，邃思2.0進行了大規(guī)模的架構(gòu)升級，針對人工智能計算的特性進行深度優(yōu)化，夯實了支持通用異構(gòu)計算的基礎(chǔ)。支持全面的計算精度，涵蓋從FP32、TF32、FP16、BF16到INT8；并在單精度算力方面達到與7nm GPU相當?shù)男阅芩剑簡尉菷P32峰值算力最高達到40 TFLOPS，單精度張量TF32峰值算力最高達到160 TFLOPS，大大提高了能效比。同時搭載了4顆HBM2E片上存儲芯片，高配支持64 GB內(nèi)存，帶寬最高可達1.8 TB/s。GCU-LARE也全面升級，提供雙向300 GB/s互聯(lián)帶寬，支持數(shù)千張云燧CloudBlazer加速卡互聯(lián)，實現(xiàn)優(yōu)異的線性加速比。

而同步升級的馭算TopsRider軟件平臺，成為燧原科技構(gòu)建原始創(chuàng)新軟件生態(tài)的基石。通過軟硬件協(xié)同架構(gòu)設(shè)計，充分發(fā)揮邃思2.0的性能；基于算子泛化技術(shù)及圖優(yōu)化策略，支持主流深度學習框架下的各類模型訓(xùn)練；利用Horovod分布式訓(xùn)練框架與GCU-LARE互聯(lián)技術(shù)相互配合，為超大規(guī)模集群的高效運行提供解決方案。開放升級的編程模型和可擴展的算子接口，為客戶模型的優(yōu)化提供了自定義的開發(fā)能力。

基于邃思2.0，燧原科技推出了云燧T20人工智能訓(xùn)練加速卡與云燧T21人工智能訓(xùn)練OAM模組，能夠通過300GB/s的獨立片間互聯(lián)通道提供靈活的多芯片算力擴展方案，支持單機多卡、單機柜多節(jié)點、多機柜大機群多種部署方式。

未來

更多的AI解決方案與產(chǎn)品孵化除了強勁的原始創(chuàng)新芯片支撐，AI算力的騰飛與人工智能產(chǎn)業(yè)的發(fā)展需要依托于健全的生態(tài)合作體系。在演講的最后，燧原科技副總裁鄧輝先生表示：“未來，我們期望在人工智能領(lǐng)域和浪潮以及更多的合作伙伴一起合作打造更多AI解決方案和產(chǎn)品，助力中國AI產(chǎn)業(yè)蓬勃發(fā)展。”

燧原科技如何立足于國產(chǎn)云端AI算力攻克通用性與性能雙重挑