當(dāng)系統(tǒng)架構(gòu)師坐下來設(shè)計(jì)下一代平臺時(shí),他們首先會查看 CPU、加速器、內(nèi)存、閃存、網(wǎng)絡(luò)接口卡以及 PCI-Express 控制器和交換機(jī)供應(yīng)商的路線規(guī)劃圖。在混合計(jì)算、內(nèi)存型系統(tǒng)設(shè)計(jì)以及共享加速器內(nèi)存等集群中,交換機(jī)變得越來越重要。
問題在于:即便如此路線規(guī)劃圖并沒有真正協(xié)調(diào)一致。大多數(shù) CPU 和 GPU 制造商都試圖每兩年進(jìn)行一次重大的計(jì)算引擎升級,并在重大發(fā)布后再進(jìn)行架構(gòu)和流程調(diào)整,支撐產(chǎn)品銷售。以太網(wǎng)和 InfiniBand 市場中的網(wǎng)絡(luò)交換機(jī)、接口卡芯片也往往以兩年為周期,并且在英特爾CPU 占據(jù)主導(dǎo)地位時(shí),他們常常將產(chǎn)品發(fā)布與英特爾至強(qiáng) CPU 的發(fā)布節(jié)奏緊密聯(lián)系在一起。但這種節(jié)奏已被英特爾不斷繪制的路線規(guī)劃圖、AMD CPU的重新崛起以及Arm CPU 制造商(包括至少三個(gè)超大規(guī)模制造商和云構(gòu)建商)所打破。
然后是 PCI-Express 總線,它在過去二十年里無處不在。雖然近年來 PCI-Express 規(guī)范按照預(yù)期發(fā)布,但 PCI-Express 控制器一直忠實(shí)于 PCI-Express 路線規(guī)劃圖,但 PCI-Express 交換機(jī)在 MicroChip 和 Broadcom 的產(chǎn)品發(fā)布方面遠(yuǎn)遠(yuǎn)落后。
我們認(rèn)為所有這些路線圖都需要更好地協(xié)調(diào)一致。具體來說,我們認(rèn)為控制 PCI-Express 規(guī)范并通過與 IT 行業(yè)廣泛而深入的合作來實(shí)現(xiàn)這一目標(biāo)的 PCI-SIG 組織需要加快步伐,采用兩年的節(jié)奏,而不是平均的節(jié)奏在過去的二十年里,它已經(jīng)展示了三項(xiàng)。雖然我們正在考慮這個(gè)問題,但我們認(rèn)為短節(jié)奏地跳躍到 PCI-Express 7.0 會更好地為行業(yè)服務(wù),需要盡快推出 PCI-Express 7.0,以使 I/O 帶寬和通道數(shù)更好地與高吞吐量計(jì)算引擎,我們預(yù)計(jì)將越來越多地使用 PCI-Express 總線來處理基于 CXL 的分層和共享主內(nèi)存。
我們調(diào)整了 PCI-SIG 的帶寬圖表,該圖表并未顯示 PCI-Express 6.0 規(guī)范是在 2022 年發(fā)布的,而是在 2021 年發(fā)布的,這是不正確的。
別誤會我們的意思。我們很感激 PCI-SIG 組織,這是數(shù)據(jù)中心和現(xiàn)在邊緣的各類公司之間的合作,自很晚的 PCI-Express 4.0 規(guī)范發(fā)布以來,已經(jīng)能夠使 PCI-Express 總線處于可預(yù)測的路線圖上。2017 年交付。一些嚴(yán)峻的信號和材料挑戰(zhàn)使數(shù)據(jù)中心在 PCI-Express 3.0 上停滯了七年,我們認(rèn)為當(dāng)時(shí)主導(dǎo) CPU 的英特爾在提升 I/O 方面有點(diǎn)拖沓,因?yàn)樗弧癝andy Bridge”Xeon E5s 使用的芯片組中的 SATA 端口燒毀,該芯片組于 2012 年 3 月發(fā)布,比預(yù)期晚。從那時(shí)起,關(guān)于將 PCI-Express 4.0 和 PCI-Express 5.0 控制器集成到處理器中的困難的傳言就很多了。
一般來說,PCI-Express 規(guī)范發(fā)布后,大約一年左右的時(shí)間我們就會看到控制器嵌入到計(jì)算引擎和網(wǎng)絡(luò)接口芯片中。因此,當(dāng) PCI-Express 4.0 在 2017 年問世時(shí),我們看到第一批使用它的系統(tǒng)在 2018 年問世,具體來說,是IBM 基于 Power9 的 Power Systems 機(jī)器,隨后在 2019 年 8 月推出的 AMD“Rome”Epyc 7002 中使用了它。英特爾直到2021 年 4 月的“Ice Lake”一代才將 PCI-Express 4.0 控制器納入其 Xeon SP 處理器中。
即使在 2019 年短暫兩年后就達(dá)到了 PCI-Express 5.0 規(guī)范,但直到2021 年 IBM 在其高端 Power E1080 機(jī)器中推出了 Power10 處理器,它才在產(chǎn)品中可用。AMD 直到2022 年 11 月推出“Genoa”Epyc 9004才將 PCI-Express 5.0 集成到服務(wù)器芯片中,英特爾直到 2023 年 1 月推出“Sapphire Rapids”Xeon SP 才將 PCI-Express 5.0 集成到服務(wù)器芯片中。
因此,正如 CPU 上的控制器所表達(dá)的那樣,PCI-Express 4.0 和 5.0產(chǎn)品之間實(shí)際上是三年的節(jié)奏,即使規(guī)范只邁出了兩年的一步。
我們認(rèn)為規(guī)格和產(chǎn)品需要以更短的兩年周期進(jìn)行,以便計(jì)算引擎和互連可以全部排列在一起。其中還包括 PCI-Express 交換機(jī) ASIC,傳統(tǒng)上這些 ASIC 遠(yuǎn)遠(yuǎn)落后于廣泛使用的 3.0、4.0 和 5.0 代 PCI-Express 規(guī)格。
在任何一代中,PCI-Express 端口和 PCI-Express 交換機(jī)之間的滯后都是一個(gè)問題。這種延遲迫使系統(tǒng)架構(gòu)師在可組合性(理想情況下在 Pod 級別使用 PCI-Express 交換機(jī))或帶寬(通過直接服務(wù)器插槽提供)之間進(jìn)行選擇。系統(tǒng)和集群的設(shè)計(jì)需要兼具可組合性和帶寬——我們也會在組合中添加高基數(shù)。
目前,只有兩家 PCI-Express 交換機(jī)制造商:Broadcom(通過多年前收購 PLX Technologies)和 MicroChip。早在 2021 年 2 月,我們就對 PCI-Express 5.0 級別的 MicroChip Switchtec ASIC 進(jìn)行了分析,其通道從 28 擴(kuò)展到 100 個(gè),端口從 16 擴(kuò)展到 52 個(gè),但據(jù)我們所知,它們尚未批量發(fā)貨。Broadcom早在 2022 年 2 月就推出了 PCI-Express 5.0 芯片組合,其中包括 ExpressFabric PEX 89100 交換機(jī),該交換機(jī)擁有 24 至 144 個(gè)通道和 24 至 72 個(gè)端口。截至發(fā)稿時(shí),我們正在確認(rèn)這些產(chǎn)品是否正在發(fā)貨,但尚未收到博通的回復(fù)。
我們的觀點(diǎn)是,PCI-Express交換機(jī)必須同時(shí)可用,計(jì)算服務(wù)器、內(nèi)存服務(wù)器和存儲服務(wù)器都將使用支持任何給定級別 PCI-Express 的芯片來創(chuàng)建。事實(shí)上,在第一天。您必須能夠在服務(wù)器中嵌入交換機(jī),并且不會丟失帶寬或端口或犧牲基數(shù)來獲得帶寬。因此,我們需要大量供應(yīng)商,以防其中一個(gè)供應(yīng)商出現(xiàn)失誤。這就是我們最近試圖鼓勵 Rambus 進(jìn)入 PCI-Express 交換機(jī) ASIC 市場的原因之一。
正如 PCI-SIG 推出 PCI-Express 7.0 規(guī)范的 0.3 版本一樣,所有這些都是首要考慮因素。
讓我們看一下一年前 PCI-Express 6.0 規(guī)范完成、PCI-Express 7.0 即將出現(xiàn)時(shí)我們對 PCI-Express 路線圖所做的預(yù)測:
PCI-Express 7.0 規(guī)范預(yù)計(jì)要到 2025 年才會獲得批準(zhǔn),這意味著我們要到 2026 年末或 2027 年初才能看到它出現(xiàn)在系統(tǒng)中。我們認(rèn)為這個(gè)等待時(shí)間太長了。我們需要 PCI-Express 7.0 來提供帶寬加速器,以處理運(yùn)行模擬或訓(xùn)練 AI 模型所需的大量數(shù)據(jù)。我們需要它與完全復(fù)雜的 CXL 4.0 共享內(nèi)存和池化內(nèi)存規(guī)范相匹配。
我們知道,加速 PCI-Express 7.0 控制器和交換機(jī)的上市是很困難的,所有類型的產(chǎn)品也都必須加速。計(jì)算引擎和外圍設(shè)備制造商都會猶豫是否要從 PCI-Express 6.0 產(chǎn)品周期中擠出盡可能多的投資。
盡管如此,隨著 PCI-Express 6.0 投入產(chǎn)品并經(jīng)過嚴(yán)格的測試(由于它使用了新的 PAM-4 信號和 FLIT 低延遲編碼,因此需要進(jìn)行嚴(yán)格的測試),我們認(rèn)為該行業(yè)應(yīng)該開始加速并盡可能與 CPU 和 GPU 路線圖相匹配,并按照兩年的節(jié)奏進(jìn)行。
讓各個(gè)組成部分保持平衡,然后同時(shí)共同前進(jìn)。
編輯:黃飛
?
評論