18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新一代超大模型訓(xùn)練引擎XTuner V1開源

華為數(shù)字中國 ? 來源:華為數(shù)字中國 ? 2025-09-10 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月8日,上海人工智能實驗室(上海AI實驗室)開源書生大模型新一代訓(xùn)練引擎XTuner V1。

XTuner V1是伴隨上海AI實驗室“通專融合”技術(shù)路線的持續(xù)演進(jìn),以及書生大模型研發(fā)實踐而成長起來的新一代訓(xùn)練引擎。相較于傳統(tǒng)的3D并行訓(xùn)練引擎,XTuner V1不僅能應(yīng)對更加復(fù)雜的訓(xùn)練場景,還具備更快的訓(xùn)練速度,尤其在超大規(guī)模稀疏混合專家(MoE,mixture of experts)模型訓(xùn)練中優(yōu)勢顯著。

同時,為了進(jìn)一步探究XTuner V1訓(xùn)練方案的上限,研究團(tuán)隊與昇騰團(tuán)隊在昇騰384超節(jié)點(Atlas 900 A3 SuperPoD)上進(jìn)行聯(lián)合優(yōu)化,充分利用昇騰384超節(jié)點硬件特性,實現(xiàn)更高的模型算力利用率(MFU,model FLOPS utilization)。相比業(yè)界其他產(chǎn)品,昇騰384超節(jié)點的訓(xùn)練吞吐提升5%以上,MFU提升20%以上,該項研究成果技術(shù)報告也將于近期發(fā)布。

除了訓(xùn)練框架,書生大模型研發(fā)中使用的AIOps工具DeepTrace與ClusterX也將一并開源,為大規(guī)模分布式訓(xùn)練提供全方位保障。

XTuner V1:

https://github.com/InternLM/xtuner

DeepTrace:

https://github.com/DeepLink-org/DeepTrace

ClusterX:

https://github.com/InternLM/clusterx

目前開源社區(qū)主流的訓(xùn)練方案主要分為兩類:

DeepSpeed/PyTorch FSDP(完全分片數(shù)據(jù)并行,F(xiàn)ully Shard Data Parallel):通信量大但使用簡單,尤其適合稠密型模型訓(xùn)練,開發(fā)者無需具備專業(yè)的AI Infra知識,也能開發(fā)出接近最優(yōu)性能的訓(xùn)練系統(tǒng);

3D并行:通信量小但使用復(fù)雜,開發(fā)者需要具備專業(yè)的AI Infra知識,針對不同硬件和訓(xùn)練場景進(jìn)行針對性調(diào)優(yōu),尤其適用MoE模型訓(xùn)練。

為了同時兼顧易用性、高性能與超大模型訓(xùn)練,XTuner V1基于PyTorch FSDP進(jìn)行開發(fā),并針對FSDP通信量大的固有缺陷,進(jìn)行了系列優(yōu)化,可支持1T參數(shù)量級MoE模型訓(xùn)練,并首次在200B以上量級的混合專家模型上,實現(xiàn)訓(xùn)練吞吐超越傳統(tǒng)的3D并行訓(xùn)練方案。

針對當(dāng)前主流的MoE后訓(xùn)練需求,XTuner V1未通過序列并行方式,實現(xiàn)200B量級MoE模型單次forward-backward可處理64k序列長度,更適合當(dāng)下流行的強(qiáng)化學(xué)習(xí)訓(xùn)練場景;對專家并行依賴小,長序列訓(xùn)練時受專家不均衡影響小,200B量級MoE無需專家并行,600B MoE只需節(jié)點內(nèi)專家并行,更適合現(xiàn)代MoE Dropless訓(xùn)練模式;大規(guī)模長短序列混訓(xùn)場景提速2倍以上,數(shù)據(jù)并行負(fù)載均衡,大幅減小因需序列長度不均衡導(dǎo)致的計算空泡。

多維度技術(shù)優(yōu)化

專為“超大模型”而生

XTuner V1之所以能在超大模型訓(xùn)練中展現(xiàn)出卓越的性能,核心在于它在顯存、通信、負(fù)載等多個維度進(jìn)行了系統(tǒng)性優(yōu)化。這些優(yōu)化協(xié)同作用,不僅帶來了性能的跨越式提升,還兼顧了易用性、通用性與擴(kuò)展性。

顯存優(yōu)化:Pytorch FSDP與3D并行最大的差異在于重計算。針對計算損失函數(shù)時的計算圖,XTuner V1基于Liger-Kernel中的Chunk-wise Loss,擴(kuò)展支持了更多種類的損失函數(shù),能夠支持昇騰NPU;針對重計算保留的激活值,XTuner V1借鑒了昇騰MindSpeed中的Async Checkpointing Swap。最終,無需借助序列并行技術(shù),實現(xiàn)200B參數(shù)量級MoE模型訓(xùn)練64K長度序列。

通信掩蓋:得益于極致的顯存優(yōu)化,XTuner V1可以讓單次迭代的最大序列長度提升數(shù)倍,從而增加每層計算的耗時,掩蓋參數(shù)聚合的通信耗時。針對因顯存或通信帶寬受限,無法實現(xiàn)通信掩蓋的訓(xùn)練場景,XTuner V1通過Intra-Node Domino-EP來降低每一層聚合參數(shù)的通信量,同時掩蓋因引入專家并行帶來的額外通信開銷。

DP負(fù)載均衡:由于XTuner V1中沒有引入TP、PP等并行策略,相同卡數(shù)下,數(shù)據(jù)并行的維度會遠(yuǎn)大于3D并行。為了緩解變長注意力帶來的計算空泡,并盡可能不影響數(shù)據(jù)的訓(xùn)練順序,會對每n個step內(nèi)的已拼接好的序列進(jìn)行排序,讓每次計算時,不同DP的最長子序列長度是接近的。

基于昇騰384超節(jié)點深度優(yōu)化

訓(xùn)練效率超業(yè)界產(chǎn)品

為了進(jìn)一步探究XTuner V1訓(xùn)練方案的上限,上海人工智能實驗室XTuner團(tuán)隊聯(lián)合昇騰技術(shù)團(tuán)隊在超節(jié)點上進(jìn)行深度優(yōu)化,充分利用昇騰384超節(jié)點硬件特性,實現(xiàn)了更高M(jìn)FU。

昇騰384超節(jié)點通過高速總線連接多顆NPU,突破互聯(lián)瓶頸,讓超節(jié)點像一臺計算機(jī)一樣工作,更加適合FSDP訓(xùn)練:

更高的通信帶寬:最大可實現(xiàn)384顆NPU點到點超大帶寬互聯(lián),F(xiàn)SDP All Gather耗時僅為業(yè)界產(chǎn)品的1/4~1/3,更容易實現(xiàn)計算-通信掩蓋

計算通信解耦:通過專用硬化調(diào)度和傳輸卸載,實現(xiàn)不占用計算核的高效數(shù)據(jù)通信,F(xiàn)SDP計算通信掩蓋時不會影響計算速度

超節(jié)點高速互連:CPU和NPU通過高速總線互聯(lián),實現(xiàn)更大帶寬,Checkpointing Swap的開銷更小

除硬件固有優(yōu)勢外,昇騰還從通信、內(nèi)存、計算、框架、工具等維度對基于昇騰384超節(jié)點的MoE訓(xùn)練進(jìn)行了全方位的加持:

Cube調(diào)優(yōu):對于模型中集中了大量計算任務(wù)的GroupedMatmul算子進(jìn)行分析,發(fā)現(xiàn)內(nèi)部搬運(yùn)帶寬已經(jīng)擁塞但cube利用率還有提升空間。針對此問題,聯(lián)合研發(fā)團(tuán)隊重點優(yōu)化GroupedMatmul算子分塊邏輯,根據(jù)不同輸入進(jìn)行動態(tài)分塊Tiling策略優(yōu)化搬運(yùn)效率。同時,根據(jù)場景的不同細(xì)化Cache策略,提高Cache命中率從而提升性能。

QoS調(diào)優(yōu):QoS(Quality of Service)即服務(wù)質(zhì)量。在有限的帶寬資源下,QoS為各種業(yè)務(wù)分配帶寬,為業(yè)務(wù)提供端到端的服務(wù)質(zhì)量保證。大規(guī)模訓(xùn)練過程中,計算流、通信流、swap流都會存在內(nèi)存訪問,并發(fā)的訪問會導(dǎo)致內(nèi)存帶寬擁塞,從而影響整體性能。通過適當(dāng)調(diào)低通信的內(nèi)存訪存優(yōu)先級,可以減少計算的搬運(yùn)時間,從而優(yōu)化端到端性能。

跨流內(nèi)存復(fù)用:在FSDP計算流和通信流異步重疊的場景中,Ascend Extension for PyTorch(PTA)中默認(rèn)的跨流內(nèi)存優(yōu)化會導(dǎo)致顯存不能及時釋放,需要開啟PTA中進(jìn)階版的跨流內(nèi)存復(fù)用機(jī)制(MULTI_STREAM_MEMORY_REUSE=2),可以顯著降低顯存峰值。

集群性能工具高效診斷:借助MindStudio全流程工具鏈中的msprof-analyze性能分析工具與MindStudio Insight可視化工具,開發(fā)者可以充分利用其強(qiáng)大的數(shù)據(jù)分析與可視化能力,在分鐘級時間內(nèi)精準(zhǔn)識別訓(xùn)練過程中的“快慢卡”現(xiàn)象根因,快速定位出性能瓶頸,顯著提升大集群調(diào)優(yōu)效率。

書生大模型工具鏈研發(fā)團(tuán)隊現(xiàn)已將Xtuner V1的工作全部開源,希望為學(xué)術(shù)界與工業(yè)界提供高性能、低門檻、易擴(kuò)展的大模型訓(xùn)練方案,豐富開源社區(qū)的訓(xùn)練工具生態(tài),為超大模型研發(fā)和應(yīng)用提供堅實易用的基礎(chǔ)設(shè)施。

未來,在研究范式創(chuàng)新及模型能力提升的基礎(chǔ)上,上海AI實驗室將持續(xù)推進(jìn)書生大模型及其全鏈條工具體系的開源,支持免費(fèi)商用,同時提供線上開放服務(wù),與各界共同擁抱更廣闊的開源生態(tài),共促大模型產(chǎn)業(yè)繁榮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    217

    文章

    35602

    瀏覽量

    259567
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3885

    瀏覽量

    45297
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3356

    瀏覽量

    4776

原文標(biāo)題:新一代超大模型訓(xùn)練引擎XTuner V1開源,昇騰384超節(jié)點訓(xùn)練效率突破上限!

文章出處:【微信號:HWS_yunfuwu,微信公眾號:華為數(shù)字中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【內(nèi)測活動同步開啟】這么小?這么強(qiáng)?新一代模型MCP開發(fā)板來啦!

    【內(nèi)測活動同步開啟】這么???這么強(qiáng)?新一代模型MCP開發(fā)板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強(qiáng)強(qiáng)
    發(fā)表于 09-25 11:47

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強(qiáng)大的推理
    發(fā)表于 07-16 15:29

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發(fā)表于 06-18 09:56 ?742次閱讀

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應(yīng)用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型和場景服務(wù)洞察,F(xiàn)iboVista將在智慧家
    的頭像 發(fā)表于 06-17 09:22 ?900次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量僅為DeepSeek - R11/
    的頭像 發(fā)表于 04-30 16:08 ?1040次閱讀

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協(xié)議SoC的革新 Nordic Semiconductor最新發(fā)布的??nRF54H20??作為nRF54H系列首款SoC,標(biāo)志著低功耗無線技術(shù)的又次飛躍。這款采用??多核
    發(fā)表于 04-26 23:25

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?500次閱讀

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)
    的頭像 發(fā)表于 03-20 16:56 ?1134次閱讀

    WTVxxxx系列語音芯片(線&二線 單雙字節(jié))資料V1

    WTVxxxx系列語音芯片(線&二線單雙字節(jié))資料V1
    發(fā)表于 03-06 08:27 ?0次下載

    壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

    DeepSeek在開源開源了部分關(guān)鍵模塊的代碼及推理系統(tǒng)參考架構(gòu),再次引發(fā)行業(yè)震動,但目前尚未開源DeepSeek-V3 滿血版完整訓(xùn)練
    的頭像 發(fā)表于 03-04 14:01 ?1737次閱讀

    模型訓(xùn)練:開源數(shù)據(jù)與算法的機(jī)遇與挑戰(zhàn)分析

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯(lián)合發(fā)布了《2024 中國開源開發(fā)者報告》。 報告聚焦 AI 大模型領(lǐng)域,對過去年的技術(shù)演進(jìn)動態(tài)、技術(shù)趨勢、以及
    的頭像 發(fā)表于 02-20 10:40 ?887次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>:<b class='flag-5'>開源</b>數(shù)據(jù)與算法的機(jī)遇與挑戰(zhàn)分析

    讓大模型訓(xùn)練更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代AI計算

    ? 電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近段時間以來,DeepSeek現(xiàn)象級爆火引發(fā)產(chǎn)業(yè)對大規(guī)模數(shù)據(jù)中心建設(shè)的思考和爭議。在訓(xùn)練端,DeepSeek以開源模型通過算法優(yōu)化(如稀疏計算、動態(tài)
    的頭像 發(fā)表于 02-18 09:19 ?1742次閱讀
    讓大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下<b class='flag-5'>一代</b>AI計算

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經(jīng)過訓(xùn)練,能夠執(zhí)
    的頭像 發(fā)表于 12-14 10:33 ?1105次閱讀

    如何使用FP8新技術(shù)加速大模型訓(xùn)練

    /fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進(jìn)行大模型訓(xùn)練具有以下優(yōu)勢: 新一代 GPU 如?NVIDIA Ada Lovelace、Hopper?架構(gòu)配備了最
    的頭像 發(fā)表于 12-09 11:30 ?1860次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測試顯示,該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-m
    的頭像 發(fā)表于 11-18 11:38 ?1282次閱讀