18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Frontier為何在部署上遇到供應(yīng)問題

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友網(wǎng) ? 2022-07-27 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/周凱揚)作為在TOP500、GREEN500(單機柜)和HPL-AI三榜排名第一的超算系統(tǒng),F(xiàn)rontier被列為第一完全不是浪得虛名。作為首個公開突破E級的超算,F(xiàn)rontier的通用算力已經(jīng)達到了1.1 exaflops,能效比為52.23 gigaflops/watt,AI算力更是達到了可怕的6.88 exaflops。但就是這樣一臺冠絕群雄的超算,也在部署上遇到了供應(yīng)問題。

狂堆硬件的Frontier

實現(xiàn)Frontier強大性能靠的并非只是單個強勁的硬件,還有龐大的系統(tǒng)規(guī)模。整個Frontier超算系統(tǒng)用到了74個慧與科技的Cray EX全液冷超算機柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優(yōu)化版,同樣是64核128線程的處理器,但在時鐘速度和能效上有所加強。至于為何沒用上引入3D垂直緩存技術(shù)的Milanx-X芯片,那是因為這塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發(fā)首臺E級超算的機會很可能就失之交臂了。

除了CPU以外,F(xiàn)rontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內(nèi)存(4.6 PB HBM2e+4.6PB DDR4),32PB節(jié)點本地存儲和716PB的中心存儲。整個系統(tǒng)共由9408個節(jié)點組成,每臺機柜包含128個節(jié)點,重量接近400公斤,龐大的系統(tǒng)也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,F(xiàn)rontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。

供應(yīng)鏈噩夢Frontier的部署計劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數(shù)據(jù)中心被拆除,改建為Frontier的數(shù)據(jù)中心,泰坦也于2019年正式退役。同年,慧與的Cray系統(tǒng)成功拿下了美國能源部的訂單,成了Frontier的基礎(chǔ)構(gòu)成部分。

但事實上,原本Frontier應(yīng)該在2021年就部署完畢的,然而由于供應(yīng)鏈上各個方面的影響,直到2021年秋季,才只完成了系統(tǒng)的交付,直到今年五月才完成最終的安裝、優(yōu)化和一次成功的E級HPL測試。當(dāng)然了,F(xiàn)rontier最后能夠爭下首發(fā)E級超算,還是因為英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復(fù)推遲,這樣才讓原本打算首發(fā)E級的Aurora超算,錯失了這個殊榮。

但對于Frontier超級計算機這種大型集成系統(tǒng)來說,全球供應(yīng)鏈各個環(huán)節(jié)上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應(yīng)商,慧與和AMD。2020年末,F(xiàn)rontier的零部件短缺到了最嚴(yán)重的地步。整個Frontier系統(tǒng)要用到685個不同料號的零部件,其中167個因為缺貨問題而受到影響,總數(shù)達到了200萬個。

慧與表示,當(dāng)它們開始下單用于機柜和Slingshot互聯(lián)系統(tǒng)的部件時,不少供應(yīng)商都將訂單的交期加上了6個月甚至是一年,這時連離打造好第一個機柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴(yán)重的一段時間,雖然大部分都認(rèn)為受影響的只有被挖礦潮波及的消費級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應(yīng)也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產(chǎn)能供應(yīng)是否充足,當(dāng)時打造這一張GPU加速卡就有15種零部件需要補全。

波及的不只是CPU和GPU要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當(dāng)時都處于全球缺貨最糟糕的狀態(tài),比如穩(wěn)壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應(yīng)商,詢問交期的問題?;叟c和AMD還組了個15人的小團隊,他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經(jīng)銷商協(xié)調(diào),詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現(xiàn)在已有的零部件。

正是因為在這樣的努力下,F(xiàn)rontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯(lián)交換機刀片的晶振,它們已有的晶振只能滿足63臺機柜的需求,還差8000多個晶振才能完成剩下11臺機柜的交付。而這時候恰好又是東南亞地區(qū)疫情肆虐,愛普生等廠商的晶振工廠停工的時期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時間才找齊這些晶振,這才在10月完成了最后一個機柜的交付。

8df30a68-0d38-11ed-ba43-dac502259ad0.png

凌晨滿功耗運轉(zhuǎn)的Frontier / 美國橡樹嶺國家實驗室

但即便完成了交付,相關(guān)的工作并沒有結(jié)束,超算并不像大家平日里動手組裝的電腦一樣,一旦安裝完畢就能跑出應(yīng)有的性能。恰恰相反,超算系統(tǒng)所有部件到位后,還要經(jīng)歷密集的測試、優(yōu)化和維護工作,于是Frontier的研究人員白天就在更新軟件優(yōu)化系統(tǒng),晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結(jié)束測試結(jié)果收集前,提交了一次成功的E級跑分。

結(jié)語其實完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應(yīng)對供應(yīng)鏈管理方面的經(jīng)驗,但與此同時,和Frontier幾乎同樣配置只是規(guī)模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔(dān)著雙線交付任務(wù)。但好在去年下半年供應(yīng)開始緩解之后,兩臺超算的任務(wù)也都最終完成了。

此外,這兩年經(jīng)歷的供應(yīng)鏈噩夢想必也影響到了其他的超算部署,就拿國內(nèi)的兩臺E級超算來說,目前都只是單機柜的測試系統(tǒng)的消息時有傳出,并沒有正式公開完整系統(tǒng)的性能參數(shù),或多或少也是被供應(yīng)問題拖慢了進度,否則這個風(fēng)頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續(xù)穩(wěn)坐榜首數(shù)年的情況已經(jīng)很難復(fù)現(xiàn)了,但首個E級超算的稱號可是無論多少年后都搶不走的。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20084

    瀏覽量

    243726
  • 硬件
    +關(guān)注

    關(guān)注

    11

    文章

    3537

    瀏覽量

    68505
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    116

    瀏覽量

    9673

原文標(biāo)題:被供應(yīng)鏈問題拖慢的超算部署

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    DeepSeek模型如何在云服務(wù)器上部署?

    隨著大型語言模型(LLM)的應(yīng)用日益普及,許多開發(fā)者和企業(yè)希望將像DeepSeek這樣的優(yōu)秀模型部署到自己的云服務(wù)器,以實現(xiàn)私有化、定制化服務(wù)并保障數(shù)據(jù)安全。本文將詳細(xì)闡述部署DeepSeek模型
    的頭像 發(fā)表于 10-13 16:52 ?385次閱讀

    何在智多晶FPGA使用MIPI接口

    大家好呀!今天我們來聊聊一個非常實用的話題——如何在智多晶FPGA使用MIPI接口。不管是做攝像頭圖像采集還是屏幕顯示控制,MIPI都是非常常見的接口標(biāo)準(zhǔn)。掌握了它,你的視頻項目開發(fā)效率將大大提升!
    的頭像 發(fā)表于 09-11 09:37 ?492次閱讀

    FX2LP 如何在執(zhí)行供應(yīng)商請求時向主機發(fā)送 USB ACK 或 NACK?

    FX2LP 如何在執(zhí)行供應(yīng)商請求時向主機發(fā)送 USB ACK 或 NACK?
    發(fā)表于 05-26 06:45

    技術(shù)分享 | 如何在2k0300(LoongArch架構(gòu))處理器跑通qt開發(fā)流程

    技術(shù)分享 | 如何在2k0300開發(fā)板(LoongArch架構(gòu))處理器跑通qt開發(fā)流程
    的頭像 發(fā)表于 05-20 11:05 ?552次閱讀
    技術(shù)分享 | 如<b class='flag-5'>何在</b>2k0300(LoongArch架構(gòu))處理器<b class='flag-5'>上</b>跑通qt開發(fā)流程

    何在CentOS系統(tǒng)中部署ELK日志分析系統(tǒng)

    功能,使用戶能夠快速獲取關(guān)鍵業(yè)務(wù)洞察。本文將詳細(xì)介紹如何在 CentOS 系統(tǒng)中部署 ELK 日志分析系統(tǒng),
    的頭像 發(fā)表于 05-08 11:47 ?655次閱讀
    如<b class='flag-5'>何在</b>CentOS系統(tǒng)中<b class='flag-5'>部署</b>ELK日志分析系統(tǒng)

    何在Ubuntu 24.04運行5.4.47版本?

    5.4.47 嘗試構(gòu)建 SDK 版本 24.04 是否正確,或者舊 Ubuntu 機器的 SDK 也應(yīng)該工作,我只需要弄清楚如何安裝缺失的庫? 另外,如果有人知道如何在 Ubuntu 24.04 運行 5.4.47 版本,
    發(fā)表于 04-11 06:08

    何在RAKsmart服務(wù)器實現(xiàn)企業(yè)AI模型部署

    AI模型的訓(xùn)練與部署需要強大的算力支持、穩(wěn)定的網(wǎng)絡(luò)環(huán)境和專業(yè)的技術(shù)管理。RAKsmart作為全球領(lǐng)先的服務(wù)器托管與云計算服務(wù)提供商,已成為企業(yè)部署AI模型的理想選擇。那么,如何在RAKsmart服務(wù)器
    的頭像 發(fā)表于 03-27 09:46 ?667次閱讀

    何在 樹莓派 編寫和運行 C 語言程序?

    在本教程中,我將討論C編程語言是什么,C編程的用途,以及如何在RaspberryPi編寫和運行C程序。本文的目的是為您介紹在RaspberryPi上進行C編程的基礎(chǔ)知識。如果您想深入了解C編程
    的頭像 發(fā)表于 03-25 09:28 ?858次閱讀
    如<b class='flag-5'>何在</b> 樹莓派 <b class='flag-5'>上</b>編寫和運行 C 語言程序?

    i.MX8M Plus PSPLASH如何在顯示器設(shè)置不同的行為?

    我在應(yīng)用程序中設(shè)置 PSplash 時遇到了一些問題:我的電路板同時連接了 LVDS 顯示器和 HDMI 顯示器。 主要問題是 LVDS 顯示器旋轉(zhuǎn)了 180°,因此我的 psplash 屏幕在
    發(fā)表于 03-21 07:31

    何在RakSmart服務(wù)器用Linux系統(tǒng)部署DeepSeek

    Linux系統(tǒng) DeepSeek 部署方案,結(jié)合RakSmart 服務(wù)器硬件推薦及多場景適配建議,主機推薦小編為您整理發(fā)布如何在RakSmart服務(wù)器用Linux系統(tǒng)部DeepSeek。
    的頭像 發(fā)表于 03-14 11:53 ?552次閱讀

    是否可以使用OpenVINO?部署管理器在部署機器運行Python應(yīng)用程序?

    使用 OpenVINO?部署管理器創(chuàng)建運行時軟件包。 將運行時包轉(zhuǎn)移到部署機器中。 無法確定是否可以在部署機器運行 Python 應(yīng)用程序,而無需安裝OpenVINO? Toolk
    發(fā)表于 03-05 08:16

    何在C#中部署飛槳PP-OCRv4模型

    《超4萬6千星的開源OCR黑馬登場,PaddleOCR憑什么脫穎而出?》收到了讀者熱烈反響c,很多讀者提出:如何在C#中部署飛槳PP-OCRv4模型?本文從零開始詳細(xì)介紹整個過程。
    的頭像 發(fā)表于 02-17 10:58 ?2478次閱讀
    如<b class='flag-5'>何在</b>C#中<b class='flag-5'>部署</b>飛槳PP-OCRv4模型

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    能精準(zhǔn)理解自然語言,生成高質(zhì)量文本,還免費向全球開發(fā)者開放,極大地推動了 AI 技術(shù)的普及與應(yīng)用,為無數(shù)開發(fā)者打開了全新的探索大門。今天,我們就一起深入探討如何在 RK3588 開發(fā)板完成
    發(fā)表于 02-14 17:42

    為什么在ads1292ECG_EFCLK_SEL引腳是輸出連接至MSP430的?

    ADS1292的CLK_SEL引腳在數(shù)據(jù)表標(biāo)示是輸入引腳, 我的理解是用來讓控制器選擇內(nèi)部時鐘或外部時鐘; 但為何在ads1292ECG_EF,CLK_SEL引腳是輸出連接 至MSP430?如下圖 謝謝!
    發(fā)表于 02-08 06:49

    何在Linux系統(tǒng)設(shè)置站群服務(wù)器IP地址

    在Linux系統(tǒng)設(shè)置站群服務(wù)器的IP地址,可以通過以下步驟進行,主機推薦小編為您整理發(fā)布如何在Linux系統(tǒng)設(shè)置站群服務(wù)器IP地址。
    的頭像 發(fā)表于 12-11 10:05 ?766次閱讀