18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程副總裁王華:AI工廠全棧技術(shù)重構(gòu)算力基建,開啟國產(chǎn) GPU 黃金時代

電子麥克風(fēng) ? 來源:電子發(fā)燒友網(wǎng) ? 作者:張迎輝 ? 2025-08-02 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摩爾線程在世界人工智能大會(WAIC 2025)前夕舉辦以“算力進化,精度革命”為主題的技術(shù)分享會,創(chuàng)新性提出“AI工廠” 理念。這一系統(tǒng)性工程通過全功能GPU、自研架構(gòu)、集群技術(shù)與軟件生態(tài)的深度協(xié)同,重新定義了AI基礎(chǔ)設(shè)施的生產(chǎn)力公式 ——AI工廠生產(chǎn)效率=加速計算通用性 × 單芯片有效算力 × 單節(jié)點效率 × 集群效率 × 集群穩(wěn)定性。作為國內(nèi)率先實現(xiàn)單芯片集成AI計算、圖形渲染、物理仿真、超高清視頻編解碼四大引擎的GPU廠商,摩爾線程此次提出的 “AI工廠” 并非單純的硬件升級,而是涵蓋芯片架構(gòu)、集群管理、算法優(yōu)化、資源調(diào)度的全棧式創(chuàng)新。正如創(chuàng)始人張建中在主題演講中所言:“我們正在建造的,是能夠生產(chǎn)AGI時代先進模型的超級工廠?!?br />
一、大模型算力需求呈指數(shù)級增長,參數(shù)量與數(shù)據(jù)量成核心驅(qū)動力

在WAIC 2025摩爾線程技術(shù)分享日上,副總裁王華首先聚焦大模型算力需求的發(fā)展趨勢。他指出,2020年至2025年間,主流大模型的算力需求呈現(xiàn)出近乎指數(shù)級的增長態(tài)勢,從單位為flops的數(shù)值來看,每一格代表10倍增長的縱軸上,模型所需算力持續(xù)攀升。

圖:摩爾線程副總裁王華在大會上演講分享他對大模型智算集群的看法(圖片來源:電子發(fā)燒友網(wǎng))

以具體模型為例,2020 年大模型算力需求 TOP 值為 1023flops,而到 2025 年,Grok-3 的算力需求已達 102?flops,短短五年間實現(xiàn)了約 1000 倍的增長;GPT-4 的訓(xùn)練量更是達到 102?flops,較早期模型提升一個數(shù)量級。這種增長的核心驅(qū)動力來自參數(shù)量與數(shù)據(jù)量的雙重擴張 —— 根據(jù) Scaling Law,參數(shù)量和數(shù)據(jù)量的增大能顯著降低模型 loss 值,提升模型效果,進而推動算力需求激增。

王華還通過不同規(guī)模集群的訓(xùn)練時間對比,直觀展現(xiàn)了算力需求的規(guī)模。以英偉達H100 集群為例:DeepSeek 模型算力需求約 3.4×102?flops,在千卡集群中需訓(xùn)練 97 天,五千卡集群需 22 天,萬卡集群需 13 天;萬億參數(shù)的 Kimi K2 模型計算量為 2.98×102?flops,對應(yīng)訓(xùn)練時間分別為 85 天、19 天、11 天;而 GPT-4 因算力需求達 102?flops,千卡集群需 602 天,五千卡集群需 137 天,萬卡集群需 80 天。即便是早期的 GPT-3,雖參數(shù)量不小,但因數(shù)據(jù)量有限,訓(xùn)練效率相對更高。這些數(shù)據(jù)清晰表明,參數(shù)量與數(shù)據(jù)量的 “雙增長” 正持續(xù)推高大模型訓(xùn)練的算力門檻。

二、FP8 成低精度訓(xùn)練 “甜點”,技術(shù)突破平衡效率與效果

在算力需求激增的背景下,低精度訓(xùn)練技術(shù)成為提升效率的關(guān)鍵。王華介紹,從FP32 到 FP16 再到 FP8,精度每下降一半,算力可提升一倍 —— 這源于顯存占用減少、緩存速度提升,但同時也可能因數(shù)值損失導(dǎo)致模型效果下降。因此,如何在精度、參數(shù)量、數(shù)據(jù)量之間找到平衡,成為核心課題。

引入精度參數(shù)P 后的新 Scaling Law 顯示,在固定計算量下,需合理配置參數(shù)量(N)、數(shù)據(jù)量(D)與精度(P):精度越高,loss 值(L)越小,但算力成本也越高。通過對比 FP32、FP16、FP8、FP6、FP4 的效果,發(fā)現(xiàn) FP6 和 FP8 處于 loss 值最低的 “甜點區(qū)域”,而 FP4 因精度過低導(dǎo)致 loss 值回升。近期研究進一步驗證,F(xiàn)P8 是當(dāng)前兼顧效率與效果的最優(yōu)選擇,相比 FP16 訓(xùn)練有巨大提升空間。

不過,F(xiàn)P8 訓(xùn)練面臨兩大核心挑戰(zhàn):一是取值范圍有限,易出現(xiàn)上溢(梯度爆炸)和下溢(梯度消失);二是不同操作對精度敏感度差異大 —— 矩陣乘等操作對精度不敏感,累加 / 歸約類操作敏感度中等,非線性函數(shù)(如指數(shù)級增長的計算)則高度敏感。對此,行業(yè)普遍采用混合精度訓(xùn)練策略:對精度不敏感的部分(如矩陣乘)用 FP8 計算,敏感部分保留高精度。

王華強調(diào),F(xiàn)P8 技術(shù)的落地離不開軟硬件協(xié)同支撐。硬件上,新一代 Tensor Core(如英偉達產(chǎn)品)已支持 FP8 輸入與高精度輸出;軟件層面,權(quán)重更新用 FP32 表達、Tensor Scaling 動態(tài)調(diào)整數(shù)值范圍等技術(shù),有效緩解了精度損失問題。以 DeepSeek 模型為例,其前向和反向傳播中的 3 次矩陣乘均采用 FP8,激活值的緩存與傳輸也用 FP8,僅對精度敏感部分保留高精度,大幅提升了訓(xùn)練效率。

三、摩爾線程全棧支持FP8 訓(xùn)練,技術(shù)創(chuàng)新攻克落地難點

作為國內(nèi)GPU 廠商代表,摩爾線程已構(gòu)建起 FP8 訓(xùn)練的軟硬件全棧支持能力。王華詳細(xì)介紹了其技術(shù)布局:

在硬件層面,摩爾線程GPU 為全功能芯片,原生支持從 FP64、FP32 到 FP8 的全精度算力,為低精度訓(xùn)練提供基礎(chǔ)支撐。

軟件棧則包含三大開源框架:一是Torch-MUSA,作為 Torch 棧上的 MUSA 底層插件,已實現(xiàn)對 FP8 數(shù)據(jù)類型的完整支持,可在 MUSA 平臺上順暢運行整個 Torch 生態(tài);二是 MT-MegatronLM,支持 Dense、多模態(tài)、MoE 等模型的高效訓(xùn)練,支持FP8 混合精度訓(xùn)練、高性能 muDNN 庫與 MCCL 通信庫;三是 MT-TransformerEngine,專注于 Transformer 模型的高效訓(xùn)練與推理優(yōu)化,通過算子融合、并行加速等技術(shù)提升效率。

依托這套軟件棧,摩爾線程成為行業(yè)內(nèi)率先復(fù)現(xiàn)DeepSeek-V3 “滿血版” 訓(xùn)練的廠商(其他廠商多聚焦推理復(fù)現(xiàn))。其核心突破包括:通過 MT FlashMLA 和 DeepGEMM 庫優(yōu)化算子性能,精準(zhǔn)復(fù)現(xiàn)了 DeepSeek 的訓(xùn)練邏輯。

針對FP8 訓(xùn)練的具體難點,摩爾線程還做了針對性創(chuàng)新:在 scaling factor 選擇上,Per-Tensor 維度因數(shù)值范圍穩(wěn)定(最小值約 200,最大值約 2000),采用固定因子;Per-Block 維度因最小值可能為 0,易導(dǎo)致數(shù)值異常,故用 JIT 動態(tài)的scalingfactor的選擇。在處理outlier(異常值)方面,通過 Smooth SwiGLU 技術(shù),在量化后先乘縮放因子、第二次量化后再恢復(fù),降低了 FP8 上溢風(fēng)險,提升了訓(xùn)練穩(wěn)定性。

四、大規(guī)模集群訓(xùn)練:模擬優(yōu)化與可靠性保障并重

隨著集群規(guī)模擴大(萬卡、十萬卡級),訓(xùn)練的效率與可靠性成為關(guān)鍵。王華指出,大規(guī)模訓(xùn)練無法全靠實驗驗證(資源消耗過大),需依賴模擬工具與可靠性技術(shù)。

在模擬優(yōu)化方面,摩爾線程開源了Simumax 軟件(GitHub 可下載),通過理論與仿真結(jié)合,估算訓(xùn)練中的資源開銷。該工具支持多種并行策略、優(yōu)化策略,可在主流模型上通過計算圖仿真,收集各類開銷數(shù)據(jù),快速評估資源需求,并定位性能偏差原因。其核心邏輯是基于經(jīng)驗與理論數(shù)據(jù),在計算圖上模擬全流程,匯總開銷后形成量化結(jié)果,為集群配置提供精準(zhǔn)參考。

在可靠性保障上,摩爾線程建立了“全生命周期管理” 體系:一是 “起飛檢查”,訓(xùn)練前對硬件、網(wǎng)絡(luò)進行全面檢測,跑小負(fù)載驗證棧穩(wěn)定性,自動剔除異常節(jié)點,降低人工排查帶來的時間成本和人力成本;二是“飛行檢查”,實時檢測訓(xùn)練中的hang、異常退出、訓(xùn)練亞健康等問題并及時處理;三是“落地檢查”,訓(xùn)練中斷時自動抓取故障上下文,定位問題根源。

針對“慢節(jié)點” 拖累整體效率的問題,摩爾線程通過兩方面檢查解決:起飛階段用小工作負(fù)載測試識別明顯慢節(jié)點;訓(xùn)練中對比節(jié)點通信時間,挑出異常節(jié)點。此舉常能帶來10%-20% 的性能提升。

在容錯訓(xùn)練上,針對萬卡級集群的高故障率,采用“動態(tài)摘除” 策略:若某 DP(數(shù)據(jù)并行)節(jié)點故障,將其從通信組中摘除,剩余節(jié)點繼續(xù)工作;若 DP 規(guī)模較大,可摘除單個節(jié)點,跳過該節(jié)點的參數(shù)計算與更新 —— 因數(shù)據(jù)量巨大,少量數(shù)據(jù)缺失對整體效果影響極小,但能避免集群重啟的巨額開銷。

王華總結(jié),算力需求激增推動低精度訓(xùn)練技術(shù)崛起,F(xiàn)P8 成為當(dāng)前最優(yōu)解,而摩爾線程通過軟硬件全棧創(chuàng)新與集群管理技術(shù),正為大規(guī)模大模型訓(xùn)練提供高效、可靠的支撐。未來,其開發(fā)者大會將分享更多技術(shù)探索,持續(xù)推動 AI 算力基礎(chǔ)設(shè)施的進化。

五、對未來趨勢的總結(jié)

最后,王總特別總結(jié)指出現(xiàn)在的AI三個大趨勢:第一、算力需求的發(fā)展趨勢,使得大智算集群成為訓(xùn)練的剛需。第二,低精度的訓(xùn)練,會帶來大規(guī)模訓(xùn)練效率的提升。第三,集群的可靠性對大規(guī)模訓(xùn)練至關(guān)重要。(完)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5044

    瀏覽量

    133949
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    247

    瀏覽量

    6004
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    摩爾線程WAIC2025亮相:以“AI工廠”理念重塑生態(tài) 產(chǎn)品開啟智能新紀(jì)元

    在2025年世界人工智能大會(WAIC 2025)開幕前一天,國產(chǎn)GPU企業(yè)摩爾線程以“進化
    的頭像 發(fā)表于 07-28 16:00 ?9171次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>WAIC2025亮相:以“<b class='flag-5'>AI</b><b class='flag-5'>工廠</b>”理念重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>生態(tài) <b class='flag-5'>全</b><b class='flag-5'>棧</b>產(chǎn)品<b class='flag-5'>開啟</b>智能新紀(jì)元

    摩爾線程吳慶詳解 MUSA 軟件:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計算新高度?

    在 2025 年世界人工智能大會(WAIC?2025)期間,摩爾線程舉辦的技術(shù)分享日活動現(xiàn)場氣氛熱烈,眾多業(yè)內(nèi)人士齊聚一堂,翹首以盼這家即將IPO上市的國產(chǎn)全功能
    的頭像 發(fā)表于 07-28 13:47 ?5164次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>吳慶詳解 MUSA 軟件<b class='flag-5'>棧</b>:以<b class='flag-5'>技術(shù)</b>創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) <b class='flag-5'>GPU</b> 計算新高度?

    摩爾線程亮相WAIC 2025:以“AI工廠”理念驅(qū)動進化,AI應(yīng)用賦能千行百業(yè)

    7月26日-29日,2025世界人工智能大會(WAIC)在上海舉辦。摩爾線程攜以全功能GPU為核心的“云邊端”
    的頭像 發(fā)表于 07-28 11:34 ?1066次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b><b class='flag-5'>工廠</b>”理念驅(qū)動<b class='flag-5'>算</b><b class='flag-5'>力</b>進化,<b class='flag-5'>全</b><b class='flag-5'>棧</b><b class='flag-5'>AI</b>應(yīng)用賦能千行百業(yè)

    摩爾線程AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級工廠

    2025年7月25日,上?!谑澜缛斯ぶ悄艽髸╓AIC 2025)開幕前夕,摩爾線程以“進化,精度革命”為主題舉辦技術(shù)分享會,并創(chuàng)新
    的頭像 發(fā)表于 07-28 11:28 ?3663次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b><b class='flag-5'>工廠</b>”:五大核心<b class='flag-5'>技術(shù)</b>支撐,打造大模型訓(xùn)練超級<b class='flag-5'>工廠</b>

    摩爾線程AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎(chǔ)設(shè)施

    2025年7月25日,上海——在世界人工智能大會(WAIC 2025)開幕前夕,摩爾線程以“進化,精度革命”為主題舉辦技術(shù)分享會,并創(chuàng)新
    發(fā)表于 07-28 10:34 ?2160次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b><b class='flag-5'>工廠</b>”:以系統(tǒng)級創(chuàng)新定義新一代<b class='flag-5'>AI</b>基礎(chǔ)設(shè)施

    曙光數(shù)創(chuàng)亮相2025中國智中心技術(shù)大會

    近日,曙光數(shù)創(chuàng)副總裁兼CTO張鵬攜三大液冷新品,正式亮相『2025中國智中心技術(shù)大會』暨第六屆中國數(shù)據(jù)中心綠色能源大會。曙光數(shù)創(chuàng)作為液
    的頭像 發(fā)表于 06-13 14:40 ?741次閱讀

    摩爾線程AI平臺AutoDL達成深度合作

    近日,摩爾線程與國內(nèi)領(lǐng)先的AI平臺AutoDL宣布達成深度合作,雙方聯(lián)合推出面向個人開發(fā)者的“摩爾
    的頭像 發(fā)表于 05-23 16:10 ?1204次閱讀

    摩爾線程加入中國移動AI能力聯(lián)合艦隊

    近日,在第八屆數(shù)字中國建設(shè)峰會期間,中國移動攜手包括摩爾線程在內(nèi)的21家投資生態(tài)企業(yè)正式發(fā)布“中國移動AI能力聯(lián)合艦隊”。依托“產(chǎn)業(yè)引領(lǐng)+資本賦能”雙輪驅(qū)動戰(zhàn)略,中國移動構(gòu)建了覆蓋“
    的頭像 發(fā)表于 05-07 17:47 ?1021次閱讀

    摩爾線程與當(dāng)虹科技達成深度合作

    近日,摩爾線程與當(dāng)虹科技達成深度合作,基于國產(chǎn)GPU成功完成了與BlackEye多模態(tài)視聽大模型的深度融合。雙方聯(lián)手打造專業(yè)級視聽“引擎”,并在超高清
    的頭像 發(fā)表于 03-20 15:22 ?1083次閱讀

    摩爾線程GPU原生FP8計算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能
    的頭像 發(fā)表于 03-17 17:05 ?1049次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b><b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓(xùn)練

    國產(chǎn)新標(biāo)桿!卓怡恒通EPC-S4450邊緣AI工控機開啟工業(yè)智能新紀(jì)元

    在工業(yè)4.0與數(shù)字化轉(zhuǎn)型浪潮的推動下,邊緣計算正加速重構(gòu)工業(yè)智能化版圖。國內(nèi)信創(chuàng)工業(yè)計算領(lǐng)域領(lǐng)軍企業(yè)卓怡恒通今日正式發(fā)布EPC-S4450邊緣AI工控機,以"
    的頭像 發(fā)表于 03-06 17:30 ?840次閱讀
    <b class='flag-5'>國產(chǎn)</b>化<b class='flag-5'>算</b><b class='flag-5'>力</b>新標(biāo)桿!卓怡恒通EPC-S4450邊緣<b class='flag-5'>AI</b>工控機<b class='flag-5'>開啟</b>工業(yè)智能新紀(jì)元

    專訪AMD啟尚 從RDNA 4到FSR 4,AMD GPU技術(shù)創(chuàng)新引領(lǐng)行業(yè)新發(fā)展

    技術(shù)的優(yōu)勢以及對AI應(yīng)用的規(guī)劃。 AMD高級副總裁GPU
    的頭像 發(fā)表于 03-06 11:19 ?615次閱讀
    專訪AMD<b class='flag-5'>王</b>啟尚 從RDNA 4到FSR 4,AMD <b class='flag-5'>GPU</b><b class='flag-5'>技術(shù)</b>創(chuàng)新引領(lǐng)行業(yè)新發(fā)展

    摩爾斯微電子任命安迪·麥克法蘭為營銷副總裁

    安迪·麥克法蘭(Andy McFarlane)為營銷副總裁。安迪曾在全球多個技術(shù)品牌領(lǐng)域?qū)覄?chuàng)佳績,將為摩爾斯微電子帶來深厚的專業(yè)底蘊和前瞻戰(zhàn)略視野,引領(lǐng)摩爾斯微電子的營銷戰(zhàn)略,進一步重
    發(fā)表于 12-17 10:34 ?340次閱讀
     <b class='flag-5'>摩爾</b>斯微電子任命安迪·麥克法蘭為營銷<b class='flag-5'>副總裁</b>

    摩爾線程GPU與超圖軟件大模型適配:共筑國產(chǎn)地理空間AI新生態(tài)

    10月24日,摩爾線程公司宣布與超圖軟件達成重要合作里程碑。經(jīng)過雙方的嚴(yán)格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新
    的頭像 發(fā)表于 10-24 11:29 ?2048次閱讀

    一體架構(gòu)創(chuàng)新助力國產(chǎn)AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應(yīng)用論壇》上,億鑄科技高級副總裁徐芳發(fā)表了題為《存一體架構(gòu)創(chuàng)新助力國產(chǎn)
    的頭像 發(fā)表于 10-23 14:48 ?1150次閱讀