18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究超大Transformer語言模型的分布式訓(xùn)練框架

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-10-20 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐,探索這一框架如何助力大模型的預(yù)訓(xùn)練計(jì)算。 上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢(shì)、NVIDIA Megatron的模型并行設(shè)計(jì),本篇將承接上篇的內(nèi)容,解析Megatron 在NVIDIA DGX SuperPOD 上的實(shí)踐。

優(yōu)化的分布式集群架構(gòu):NVIDIA DGX SuperPOD

有了高效的分布式訓(xùn)練框架,自然也需要優(yōu)化的分布式訓(xùn)練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個(gè)分布式集群的參考架構(gòu),最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建,旨在幫助AI 研究人員快速搭建一套強(qiáng)大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復(fù)雜、多變的模型對(duì)計(jì)算資源不同程度的需求。尤其對(duì)于超大語言模型預(yù)訓(xùn)練這一復(fù)雜場(chǎng)景,DGX SuperPOD 架構(gòu)尤為重要。

DGX SuperPOD 采用模塊化的設(shè)計(jì),支持不同規(guī)模大小的設(shè)計(jì)。一個(gè)標(biāo)準(zhǔn)的SuperPOD 由140 臺(tái)DGX A100和三層Infiniband 交換機(jī)通過胖樹結(jié)構(gòu)全互聯(lián)起來。每臺(tái)DGX A100 配有8個(gè)200Gb/s 的高速計(jì)算網(wǎng),并配有2個(gè)200Gb/s的高速存儲(chǔ)網(wǎng),采用計(jì)算和存儲(chǔ)網(wǎng)絡(luò)分離的方案。

多個(gè)POD之間可以通過核心層交換機(jī)直連起來,可以支持多達(dá)560 臺(tái)DGX A100的互聯(lián)規(guī)模。

更多關(guān)于NVIDIA DGX SuperPOD 架構(gòu)的詳細(xì)設(shè)計(jì),請(qǐng)參閱下列連接中的白皮書:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實(shí)踐

基于DGX SuperPOD 的Megatron實(shí)踐在不同大小的模型上,都表現(xiàn)出了很好的計(jì)算效率。

模型從1.7B 到1T ,訓(xùn)練規(guī)模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓(xùn)練,采用如下的配置:

128 臺(tái) DGX A100,總共 1024張 A100

Tensor 并行度:8;Pipeline 并行度:16; 數(shù)據(jù)并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的訓(xùn)練規(guī)模下,GPU 仍可達(dá)到44% 左右的計(jì)算效率,在規(guī)模和效率上,都遠(yuǎn)遠(yuǎn)超過已有的公開結(jié)果。

詳細(xì)內(nèi)容請(qǐng)參考以下鏈接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結(jié)

1. 大模型是大勢(shì)所趨。

2. 大規(guī)模分布式訓(xùn)練是訓(xùn)練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協(xié)同設(shè)計(jì)的訓(xùn)練框架,專為Transformer-based的超大語言模型設(shè)計(jì)。

4. NVIDIA DGX SuperPOD 是開放的集群參考設(shè)計(jì)架構(gòu),專為大規(guī)模分布式訓(xùn)練而準(zhǔn)備。

5. Megatron 優(yōu)化的Tensor模型并行:用于intra-transformer 層,可以高效地執(zhí)行在HGX based的系統(tǒng)上。

6. Megatron優(yōu)化的 Pipeline 模型并行:用于inter-transformer 層,可以有效地利用集群中多網(wǎng)卡的設(shè)計(jì)。

7. 數(shù)據(jù)并行的加持,可以擴(kuò)展到更大規(guī)模、訓(xùn)練更快。

8. GPT-3 175B 的大模型,在1024 張 A100上可達(dá)到44%左右的計(jì)算效率。

9. NVIDIA Megatron 的設(shè)計(jì)和實(shí)踐,已廣泛用于學(xué)術(shù)界和工業(yè)界。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7297

    瀏覽量

    93492
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5442

    瀏覽量

    108493
  • 交換機(jī)
    +關(guān)注

    關(guān)注

    23

    文章

    2847

    瀏覽量

    103441
  • 分布式
    +關(guān)注

    關(guān)注

    1

    文章

    1040

    瀏覽量

    76199

原文標(biāo)題:NVIDIA Megatron:超大Transformer語言模型的分布式訓(xùn)練框架 (二)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用

    分布式光伏本地和遠(yuǎn)程通信方案,并研究分布式光伏采集模型的構(gòu)建、多源數(shù)據(jù)融合估計(jì)、面向分布式光伏的有功、無功功率優(yōu)化控制等關(guān)鍵技術(shù),實(shí)現(xiàn)了對(duì)小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3204次閱讀
    【節(jié)能學(xué)院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應(yīng)用

    雙電機(jī)分布式驅(qū)動(dòng)汽車高速穩(wěn)定性機(jī)電耦合控制

    摘要:為了利用所設(shè)計(jì)的雙電機(jī)防滑差速驅(qū)動(dòng)系統(tǒng)來提高分布式驅(qū)動(dòng)汽車的動(dòng)力學(xué)性能,在前期同軸耦合驅(qū)動(dòng)控制理論研究的基礎(chǔ)上,開展該車的高速穩(wěn)定性機(jī)電耦合控制研究。建立并驗(yàn)證包含所設(shè)計(jì)驅(qū)動(dòng)系統(tǒng)在內(nèi)的分布式
    發(fā)表于 06-18 16:37

    潤和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤和軟件股份有限公司(以下簡(jiǎn)稱“潤和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場(chǎng)景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運(yùn)行,有效推動(dòng)了大
    的頭像 發(fā)表于 06-13 09:11 ?940次閱讀
    潤和軟件StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的應(yīng)用案例

    潤和軟件發(fā)布StackRUNS異構(gòu)分布式推理框架

    當(dāng)下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應(yīng)用場(chǎng)景日益復(fù)雜,企業(yè)正面臨異構(gòu)算力資源碎片化帶來的嚴(yán)峻挑戰(zhàn)。為應(yīng)對(duì)行業(yè)痛點(diǎn),江蘇潤和軟件股份有限公司(以下簡(jiǎn)稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構(gòu)分布式推理框架,高效融合異構(gòu)
    的頭像 發(fā)表于 06-13 09:10 ?1071次閱讀
    潤和軟件發(fā)布StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    AI原生架構(gòu)升級(jí):RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級(jí)參數(shù)模型的崛起,AI訓(xùn)練對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對(duì)分布式訓(xùn)練、高并發(fā)計(jì)算和顯存優(yōu)化等場(chǎng)景時(shí)逐漸顯露瓶頸。而RAKsmart為
    的頭像 發(fā)表于 04-24 09:27 ?500次閱讀

    淺談工商企業(yè)用電管理的分布式儲(chǔ)能設(shè)計(jì)

    文章設(shè)計(jì)了一種新的用于工商業(yè)用電管理的分布式儲(chǔ)能系統(tǒng)。由于儲(chǔ)能系統(tǒng)硬件置換成本高,選擇在傳統(tǒng)儲(chǔ)能系統(tǒng)的硬件框架基礎(chǔ)上,對(duì)控制軟件進(jìn)行優(yōu)化設(shè)計(jì),建立分布式儲(chǔ)能系統(tǒng)模型,分析發(fā)電量、儲(chǔ)電量
    的頭像 發(fā)表于 03-24 15:43 ?3208次閱讀
    淺談工商企業(yè)用電管理的<b class='flag-5'>分布式</b>儲(chǔ)能設(shè)計(jì)

    小白學(xué)大模型訓(xùn)練語言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語言模型(LLMs)正以其強(qiáng)大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型
    的頭像 發(fā)表于 03-03 11:51 ?1070次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語言模型
    的頭像 發(fā)表于 02-10 09:37 ?605次閱讀

    分布式云化數(shù)據(jù)庫有哪些類型

    分布式云化數(shù)據(jù)庫有哪些類型?分布式云化數(shù)據(jù)庫主要類型包括:關(guān)系型分布式數(shù)據(jù)庫、非關(guān)系型分布式數(shù)據(jù)庫、新SQL分布式數(shù)據(jù)庫、以列方式存儲(chǔ)數(shù)據(jù)、
    的頭像 發(fā)表于 01-15 09:43 ?766次閱讀

    模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個(gè)用于簡(jiǎn)化和加速深度學(xué)習(xí)模型訓(xùn)練的庫,它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 CPU、GPU、TPU 等。Accelerat
    的頭像 發(fā)表于 01-14 14:24 ?1554次閱讀

    HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)

    使用分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù),當(dāng)需要遷移的數(shù)據(jù)較大(100KB以上)或需要遷移文件時(shí),可以使用分布式數(shù)據(jù)對(duì)象。原理與接口說明詳見分布式數(shù)據(jù)對(duì)象跨設(shè)備數(shù)據(jù)同步。 說明:自API 12起,由于直接使用跨
    發(fā)表于 12-24 09:40

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?724次閱讀

    分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

    的大小已經(jīng)超出了單個(gè) GPU 的范圍。所以就需要實(shí)現(xiàn)跨多個(gè) GPU 的模型訓(xùn)練,這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。 當(dāng)談及分布式
    的頭像 發(fā)表于 11-18 09:39 ?1695次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實(shí)現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的技術(shù)NVLink的演進(jìn)

    分布式光纖測(cè)溫解決方案

    分布式光纖測(cè)溫解決方案
    的頭像 發(fā)表于 11-12 01:02 ?821次閱讀
    <b class='flag-5'>分布式</b>光纖測(cè)溫解決方案

    分布式光纖測(cè)溫是什么?應(yīng)用領(lǐng)域是?

    分布式光纖測(cè)溫是一種先進(jìn)的溫度測(cè)量技術(shù),它利用光纖的拉曼散射原理進(jìn)行溫度監(jiān)測(cè)。以下是對(duì)分布式光纖測(cè)溫的詳細(xì)介紹: 一、基本原理 分布式光纖測(cè)溫的原理基于光纖的拉曼散射效應(yīng)。當(dāng)光纖某處的溫度發(fā)生變化
    的頭像 發(fā)表于 10-24 15:30 ?1690次閱讀
    <b class='flag-5'>分布式</b>光纖測(cè)溫是什么?應(yīng)用領(lǐng)域是?