隨著AI大模型訓(xùn)推集群的規(guī)模不斷擴(kuò)大,Scale-up網(wǎng)絡(luò)的重要性已不限于訓(xùn)練集群側(cè),云端推理集群對(duì)于多機(jī)之間組成超節(jié)點(diǎn)HBD方案的需求正在逐步增加。面對(duì)其對(duì)互聯(lián)性能的極致追求,目前業(yè)內(nèi)主要采用專(zhuān)門(mén)設(shè)計(jì)的協(xié)議比如NVIDIA的NVLink及NVSwitch技術(shù)。在今年的GTC大會(huì)上,NVIDIA已經(jīng)明確將GPU 的HBD域互聯(lián)從72卡推進(jìn)到576卡。 然而,NVIDIA的解決方案是基于私有協(xié)議,不僅成本高昂,且不對(duì)外開(kāi)放。為了打破這一局面,AI網(wǎng)絡(luò)產(chǎn)業(yè)鏈在去年共同發(fā)起了UALink 加速器互聯(lián)協(xié)議聯(lián)盟,旨在推動(dòng)AI網(wǎng)絡(luò)Scale-up互聯(lián)的創(chuàng)新技術(shù)發(fā)展。
奇異摩爾在2024年就加入了UALink(Ultra Accelerator Link ) 加速器間互聯(lián)協(xié)議聯(lián)盟,并積極參與UALink標(biāo)準(zhǔn)的制定。 就在本周,UALink聯(lián)盟終于迎來(lái)了1.0標(biāo)準(zhǔn)的正式發(fā)布,這一標(biāo)準(zhǔn)的發(fā)布將進(jìn)一步加速AI訓(xùn)推基礎(chǔ)設(shè)施的生態(tài)完善,助力AI網(wǎng)絡(luò)的繁榮發(fā)展。
關(guān)于第一版標(biāo)準(zhǔn),UALink 聯(lián)盟董事會(huì)主席 Kurtis Bowman 表示:“隨著對(duì) AI 計(jì)算的需求不斷增長(zhǎng),我們很高興能夠提供一項(xiàng)必不可少的開(kāi)放行業(yè)標(biāo)準(zhǔn)技術(shù),使下一代 AI/ML 應(yīng)用能夠推向市場(chǎng)。UALink 是唯一一款針對(duì)擴(kuò)展 AI 的內(nèi)存語(yǔ)義解決方案,它針對(duì)降低功耗、延遲和成本進(jìn)行了優(yōu)化,同時(shí)增加了有效帶寬。UALink 200G 1.0 規(guī)范帶來(lái)的突破性性能將徹底改變?cè)品?wù)提供商、系統(tǒng) OEM 和 IP/芯片提供商處理 AI 工作負(fù)載的方式。
UALink 協(xié)議棧包括四個(gè)硬件優(yōu)化層:物理層(physical)、數(shù)據(jù)鏈路層(data link)、事務(wù)層(transaction)和協(xié)議層(protocol)。
基于內(nèi)存語(yǔ)義的快速GPU HBM訪問(wèn)
(圖:UALink Specification 1.0Rev)
和其他Scale-up生態(tài)有所區(qū)別的是UALink從誕生那刻起就是基于內(nèi)存語(yǔ)義。上述表格描述了兩個(gè)基于UALink的系統(tǒng)節(jié)點(diǎn)通過(guò)UAL交換機(jī)實(shí)現(xiàn)互聯(lián)。在這個(gè)Domain中,CPU Host可通過(guò)CXL, PCIe, AMD Infinity Fabric, XGMI等協(xié)議與GPU加速器互聯(lián)?;赨ALink協(xié)議,GPU之間通過(guò)UAlink Switch交換機(jī)與HBD域內(nèi)的其他GPU互聯(lián)。
圖中特別突出的是紅線所指示的部分,在該HBD Domain中的任意GPU 都可以訪問(wèn)其他GPU的HBM,從而實(shí)現(xiàn)加速器之間的快速讀取和寫(xiě)入,相較于消息語(yǔ)義,它的通信和互聯(lián)效率是非常高的。
奇異摩爾作為Scale-up網(wǎng)絡(luò)主要芯粒提供商自研的 NDSA-G2G IO Die 未來(lái)將支持內(nèi)存語(yǔ)義,通過(guò)與UAlink生態(tài)適配,建立更完善的內(nèi)存語(yǔ)義互聯(lián)系統(tǒng)。
物理層特點(diǎn)Physical Layer
(圖:UALink Specification 1.0Rev)
UALink 物理層基于 802.3 以太網(wǎng)物理層。UALink 定義了 1、2 或 4 個(gè)串行通道,運(yùn)行速率為 212.5Gbps(200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4)。物理層包括了使用 FEC 減少延遲的修改。該以太網(wǎng)物理層具有標(biāo)準(zhǔn)的前向 (FEC) 并遵循 IEEE P802.3dj 規(guī)范。通過(guò)單向和雙向碼字交錯(cuò),讓延遲得到改善,并且有一點(diǎn)變化以支持 680 字節(jié)的 flit。(Flit 或流控制單元是鏈路級(jí)別的原子數(shù)據(jù)單元)
在 PCI-Express 6.0 中,控制該標(biāo)準(zhǔn)(并且主要由英特爾主導(dǎo))的 PCI-SIG 組織,并沒(méi)有僅僅實(shí)現(xiàn)標(biāo)準(zhǔn)的 FEC,而新的FEC是轉(zhuǎn)向了一種流量控制和循環(huán)冗余檢查 (CRC) 錯(cuò)誤檢測(cè)的混合方式,實(shí)際上提高了信號(hào)傳輸?shù)目煽啃?,同時(shí)降低了延遲。這樣的一些機(jī)制被 UALink 采納,并且許多對(duì)于內(nèi)存架構(gòu)來(lái)說(shuō)不必要的東西并沒(méi)有包含在其中從而輕量化了該協(xié)議。
數(shù)據(jù)鏈路層特點(diǎn)Data Link Layer
(圖:UALink Specification 1.0Rev)
數(shù)據(jù)鏈路層位于事務(wù)層和物理層之間。數(shù)據(jù)鏈路層將事務(wù)層的 64 字節(jié) Flit 打包成物理層的 640 字節(jié) Flit。數(shù)據(jù)鏈路層還提供鏈接伙伴之間在數(shù)據(jù)鏈路層發(fā)起和終止的消息服務(wù)。消息服務(wù)用于宣傳事務(wù)層速率、查詢連接鏈路伙伴上的設(shè)備和端口 ID 以及其他功能。消息服務(wù)還提供鏈接伙伴之間的 UART 式通信,用于固件通信。鏈路級(jí)重放是基于 640 字節(jié) Flit 提供的。計(jì)算并檢查 32 位 CRC,并且是 640 字節(jié) Flit 的一部分。此外Link Level Replay的功能確保了物理層 FEC 無(wú)法糾正的比特錯(cuò)誤存在的情況下,DL Flits 的有序傳遞。發(fā)送器保留有效負(fù)載 Flits的副本,直到接收器確認(rèn)它們。
事務(wù)層特點(diǎn)Transaction Layer
(圖:UALink Specification 1.0Rev)
UALink 1.0 Spec實(shí)現(xiàn)壓縮尋址,在實(shí)際工作負(fù)載下以高達(dá) 95% 的協(xié)議效率簡(jiǎn)化數(shù)據(jù)傳輸。它支持直接內(nèi)存操作,例如加速器之間的讀取、寫(xiě)入和原子事務(wù)(atomic transactions),從而保留本地和遠(yuǎn)程內(nèi)存空間之間的順序。
協(xié)議層特點(diǎn)Protocol Layer
(圖:UALink Specification 1.0Rev)
UALink 的協(xié)議層稱(chēng)為 UALink 協(xié)議級(jí)接口 (UPLI)。UPLI 定義了一個(gè)邏輯信號(hào)接口和協(xié)議,通過(guò)該協(xié)議,設(shè)備可以通過(guò)一組請(qǐng)求和響應(yīng)消息交換數(shù)據(jù)和控制信息。UALink 規(guī)范完全定義了 UPLI 協(xié)議,并期望遵循該協(xié)議的實(shí)現(xiàn)將與 UALink 交換機(jī)兼容。UPLI 協(xié)議具有內(nèi)置的靈活性,允許供應(yīng)商創(chuàng)建自定義協(xié)議消息,用于相同類(lèi)型的加速器之間的通信,而無(wú)需對(duì) UALink 交換機(jī)進(jìn)行任何修改。UALink 協(xié)議級(jí)接口是主要接口,實(shí)現(xiàn)可能在此基礎(chǔ)上開(kāi)發(fā),通常使用第三方供應(yīng)商提供的堆棧其余部分的 IP。
協(xié)議輕量化降低數(shù)據(jù)中心功耗
UALink的一個(gè)非常突出的特點(diǎn)就是整體設(shè)計(jì)簡(jiǎn)單輕量化。據(jù)悉,UALink 的功耗僅為同等以太網(wǎng) ASIC 芯片面積的一半到三分之一(每個(gè)端口),并且每個(gè)內(nèi)存結(jié)構(gòu)加速器可節(jié)省 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味著更便宜的芯片,更低的功耗意味著更少的電力和冷卻消耗,從而降低整體 TCO。
UALink如何在中國(guó)市場(chǎng)落地
UALink國(guó)際互聯(lián)系統(tǒng)開(kāi)發(fā)標(biāo)準(zhǔn)在中國(guó)的應(yīng)用落地,需要產(chǎn)業(yè)鏈上下游的協(xié)同配合。因此,聯(lián)盟成員囊括了國(guó)內(nèi)芯片制造商、以奇異摩爾為代表的芯粒廠商,以及交換機(jī)提供商等關(guān)鍵角色。在今年的ODCC春季全體會(huì)議上,ODCC新測(cè)組組長(zhǎng)郭亮與UALink董事會(huì)成員孔陽(yáng)博士簽署了MOU合作備忘錄,這標(biāo)志著國(guó)內(nèi)AI網(wǎng)絡(luò)Scale-up技術(shù)創(chuàng)新與應(yīng)用將步入快車(chē)道。
奇異摩爾作為ALS系統(tǒng)及UALink聯(lián)盟的生態(tài)成員,正與阿里云等頭部云廠商、GPU廠商通力合作,通過(guò)制定生態(tài)標(biāo)準(zhǔn)、提供GPU IO Die(NDSA-G2G)等解決方案,加速國(guó)產(chǎn)大模型訓(xùn)練推理技術(shù)的發(fā)展。
關(guān)于我們
AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專(zhuān)為超大規(guī)模AI計(jì)算平臺(tái)量身打造,以滿足其對(duì)高性能互聯(lián)的嚴(yán)苛需求。
我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。
奇異摩爾的核心團(tuán)隊(duì)匯聚了來(lái)自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動(dòng)技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過(guò)50個(gè)高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個(gè)更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡(jiǎn)單。奇異摩爾以創(chuàng)新為驅(qū)動(dòng)力,技術(shù)探索新場(chǎng)景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。
-
加速器
+關(guān)注
關(guān)注
2文章
833瀏覽量
39612 -
AI
+關(guān)注
關(guān)注
88文章
37138瀏覽量
291196 -
奇異摩爾
+關(guān)注
關(guān)注
0文章
69瀏覽量
3915
原文標(biāo)題:生態(tài)共建 | UALink 加速器互聯(lián)協(xié)議聯(lián)盟1.0版本正式發(fā)布
文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
奇異摩爾助力中國(guó)移動(dòng)GSE 2.5版本協(xié)議標(biāo)準(zhǔn)發(fā)布
奇異摩爾Networking for AI生態(tài)沙龍成功舉辦
奇異摩爾助力OISA全向智感互聯(lián)IO芯粒技術(shù)白皮書(shū)發(fā)布

摩爾線程攜手生態(tài)合作伙伴打造的AI教育實(shí)訓(xùn)基地啟用
奇異摩爾攜手中國(guó)移動(dòng)發(fā)布OISA 2.0協(xié)議

奇異摩爾出席第三屆芯粒開(kāi)發(fā)者大會(huì)AI芯片與系統(tǒng)分論壇
奇異摩爾田陌晨榮獲中國(guó)半導(dǎo)體行業(yè)領(lǐng)軍人物獎(jiǎng)
奇異摩爾邀您相約2025中國(guó)AI算力大會(huì)
奇異摩爾以互聯(lián)之長(zhǎng)推進(jìn)OISA GPU卡間互聯(lián)生態(tài)適配

奇異摩爾受邀出席第三屆HiPi Chiplet論壇
衢州市領(lǐng)導(dǎo)蒞臨奇異摩爾考察調(diào)研
蘋(píng)果加入UALink聯(lián)盟,共推AI加速器新標(biāo)準(zhǔn)
奇異摩爾分享計(jì)算芯片Scale Up片間互聯(lián)新途徑

評(píng)論