18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

麗臺科技 ? 來源:麗臺科技 ? 2025-09-23 17:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Isaac Lab是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世界之間的差距。

Isaac Lab 主要通過 NVIDIA GPU 加速高度逼真的物理模擬、實(shí)時(shí)渲染、深度強(qiáng)化學(xué)習(xí)(RL)模仿學(xué)習(xí)(IL)集成等先進(jìn)技術(shù),然而對于復(fù)雜的強(qiáng)化學(xué)習(xí)環(huán)境,可能需要在多個(gè) GPU 上擴(kuò)大訓(xùn)練規(guī)模。Isaac Lab 支持多 GPU 和多節(jié)點(diǎn)功能,與在單個(gè) GPU 上進(jìn)行訓(xùn)練相比,可以更快地加速訓(xùn)練過程并達(dá)到更高的性能水平。

在之前的機(jī)器人仿真教程里,我們分別介紹了Isaac Lab 的安裝教程以及Isaac Lab 的可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南,本篇教程將帶大家了解如何通過多 GPU 和多節(jié)點(diǎn)進(jìn)行擴(kuò)展訓(xùn)練。

核心要點(diǎn)

Isaac Lab 支持多 GPU 和多節(jié)點(diǎn)強(qiáng)化學(xué)習(xí)。但是此功能目前僅可用于 RL-Games、RSL-RL 和 skrl 庫。多 GPU 和多節(jié)點(diǎn)訓(xùn)練僅支持 Linux 系統(tǒng),因 NCCL 庫限制,暫不支持 Windows 系統(tǒng)。

一、多 GPU

Isaac Lab 支持以下兩種多 GPU 訓(xùn)練框架。

1. 通過 PyTorch Torchrun 進(jìn)行分布式訓(xùn)練

Torchrun 通過以下方式管理分布式訓(xùn)練:

進(jìn)程管理:為每個(gè) GPU 創(chuàng)建一個(gè)獨(dú)立進(jìn)程,并將每個(gè)進(jìn)程分配至指定的 GPU。

腳本執(zhí)行:在每個(gè)進(jìn)程上運(yùn)行相同的訓(xùn)練腳本(例如 RL Games)。

環(huán)境實(shí)例:每個(gè)進(jìn)程都會創(chuàng)建獨(dú)立的 Isaac Lab 環(huán)境實(shí)例。

梯度同步:收集并同步所有進(jìn)程的梯度,在每個(gè)訓(xùn)練步驟結(jié)束后將更新后的梯度廣播回各進(jìn)程。

此流程中的關(guān)鍵組件是:

Torchrun:處理進(jìn)程生成、通信和梯度同步。

RL 庫:運(yùn)行實(shí)際訓(xùn)練算法的強(qiáng)化學(xué)習(xí)庫。

Isaac Lab:提供每個(gè)進(jìn)程獨(dú)立實(shí)例化的模擬環(huán)境。

Torchrun 在底層使用 DistributedDataParallel 模塊來管理分布式訓(xùn)練。當(dāng)使用多個(gè) GPU 進(jìn)行訓(xùn)練時(shí),會發(fā)生以下情況:

每個(gè) GPU 運(yùn)行一個(gè)獨(dú)立的進(jìn)程

每個(gè)進(jìn)程執(zhí)行完整的訓(xùn)練腳本

每個(gè)進(jìn)程都獨(dú)立擁有:

① Isaac Lab 環(huán)境實(shí)例(含 n 個(gè)并行環(huán)境)

② 策略網(wǎng)絡(luò)副本

③ 用于收集訓(xùn)練經(jīng)驗(yàn)的緩沖區(qū)

所有進(jìn)程僅針對梯度更新進(jìn)行同步

2. 通過 JAX 進(jìn)行分布式訓(xùn)練

在使用 JAX 時(shí),我們借助skrl.utils.distributed.jax模塊來實(shí)現(xiàn)分布式訓(xùn)練。由于 JAX 等機(jī)器學(xué)習(xí)框架通常不會在單個(gè)程序調(diào)用中自動(dòng)啟動(dòng)多個(gè)進(jìn)程,因此 skrl 庫提供了該模塊,用于負(fù)責(zé)進(jìn)程的啟動(dòng)與管理。

*注:僅 skrl 庫支持 JAX。

二、多節(jié)點(diǎn)

除了將訓(xùn)練規(guī)模擴(kuò)展到單臺機(jī)器上的多個(gè) GPU 之外,還可以跨多個(gè)節(jié)點(diǎn)進(jìn)行訓(xùn)練。要跨多個(gè)節(jié)點(diǎn)/機(jī)器進(jìn)行訓(xùn)練,需要在每個(gè)節(jié)點(diǎn)上啟動(dòng)單獨(dú)的進(jìn)程。

運(yùn)行訓(xùn)練

接下來,我們來演示下多 GPU 多節(jié)點(diǎn)訓(xùn)練操作步驟。本期教程以 NVIDIA RTX 5880 Ada GPU 為底層硬件支持。

一、訓(xùn)練環(huán)境

1. CUDA 安裝:

1.1使用 nvidia-smi 查看當(dāng)前驅(qū)動(dòng)支持的最高 cuda 版本。如下圖所示,可以看到當(dāng)前顯示最高版本為 CUDA Version:12.8。

c45d8ea8-8f98-11f0-8c8f-92fbcf53809c.jpg

圖1

1.2訪問官網(wǎng)(https://developer.nvidia.com/cuda-toolkit-archive),下載并安裝 CUDA 12.8 及以下版本。

c4c04f98-8f98-11f0-8c8f-92fbcf53809c.png

根據(jù)提示,選擇對應(yīng)系統(tǒng)版本,獲取 CUDA 工具包安裝程序下載鏈接以及安裝方式。

c51dfb16-8f98-11f0-8c8f-92fbcf53809c.png

1.3運(yùn)行以下命令:

sudosh cuda_12.8.0_570.86.10_linux.run

2. Pytorch安裝

2.1訪問https://pytorch.org/,根據(jù)提示選擇對應(yīng)系統(tǒng)、CUDA版本等下載安裝即可。

c57ba52c-8f98-11f0-8c8f-92fbcf53809c.png

2.2如果提示沒有 pip,按照要求 apt 安裝。

c5da7890-8f98-11f0-8c8f-92fbcf53809c.png

2.3執(zhí)行pip3 install torch torchvision。

c63596d0-8f98-11f0-8c8f-92fbcf53809c.png

2.4安裝完成后,查看 pytorch 版本。

c6980ad6-8f98-11f0-8c8f-92fbcf53809c.png

二、運(yùn)行結(jié)果(多節(jié)點(diǎn)訓(xùn)練)

1. 在窗口中再次確認(rèn)環(huán)境變量

exportISAACSIM_PATH="${HOME}/isaacsim"
exportISAACSIM_PYTHON_EXE="${ISAACSIM_PATH}/python.sh"

2. 節(jié)點(diǎn)運(yùn)行

在節(jié)點(diǎn) 1 運(yùn)行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=0 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

在節(jié)點(diǎn) 2 運(yùn)行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=1 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

注意,需要調(diào)整的參數(shù)主要是:

--nproc_per_node

每個(gè)節(jié)點(diǎn)(機(jī)器)上啟動(dòng)的進(jìn)程數(shù),通常設(shè)置為該節(jié)點(diǎn)的 GPU 數(shù)量。例如,若單機(jī)有 8 塊 GPU,--nproc_per_node=8。

--nnodes

參與訓(xùn)練的物理節(jié)點(diǎn)總數(shù)。例如,--nnodes=4表示使用 4 臺機(jī)器組成集群進(jìn)行訓(xùn)練。

--rdzv_endpoint

主節(jié)點(diǎn)的 IP 地址和端口號,格式為host:port。所有節(jié)點(diǎn)通過此端點(diǎn)進(jìn)行通信協(xié)調(diào),例如--rdzv_endpoint=192.168.1.100:29500。

*如需了解詳細(xì)步驟,可參考官方文檔:

https://isaac-sim.github.io/IsaacLab/main/source/features/multi_gpu.html

推薦硬件配置

以下是麗臺針對個(gè)人開發(fā)者/研究人員的機(jī)器人仿真及訓(xùn)練環(huán)境推薦配置,能流暢運(yùn)行 Isaac Lab 以及機(jī)器人訓(xùn)練和仿真所需的算力,同時(shí)可再與企業(yè)級多卡集群方案形成互補(bǔ),能夠完全滿足中小規(guī)模的實(shí)驗(yàn)需求。

LEADTEK WS3008

LEADTEK WS3008 產(chǎn)品特性

支持選配 2 張 NVIDIA RTX 5880 Ada GPU

支持單 Intel Xeon W-3400、W-2400 系列處理器

Intel W790 芯片組

支持最高至 350W CPU TDP

支持最多 DDR5-4800MHz x8 內(nèi)存

支持 4 PCIe 5.0 x16 插槽

支持 1 M.2 NVMe PCI-E 4.0 x4

支持 2 個(gè) 10GbE BaseT、1 個(gè) 2.5GbE BaseT 和 1 個(gè) 1GbE BaseT 網(wǎng)口

支持 1 個(gè) IPMI 管理口

支持 2 個(gè) USB-A

支持 1 個(gè) VGA 口,1 個(gè) COM 口

支持 1 個(gè) 1200W/1300W 鉑金電源

機(jī)箱體積:400.0×278.0×167.6 mm

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    30287

    瀏覽量

    218188
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5442

    瀏覽量

    108491
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5045

    瀏覽量

    133953

原文標(biāo)題:突破算力限制!Isaac Lab 多 GPU 多節(jié)點(diǎn)訓(xùn)練指南

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?1519次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> <b class='flag-5'>Lab</b>可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用<b class='flag-5'>指南</b>

    《CST Studio Suite 2024 GPU加速計(jì)算指南

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,如果機(jī)器鎖屏一段時(shí)間再打開的時(shí)候鼠標(biāo)非??D,或者說顯示界面非??D,使用nvidia-smi查看發(fā)現(xiàn),
    發(fā)表于 12-30 06:44

    在Ubuntu上使用Nvidia GPU訓(xùn)練模型

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示
    發(fā)表于 01-03 08:24

    NVIDIA Modulus為數(shù)字雙胞胎開發(fā)ML模型框架

      訓(xùn)練引擎 Modulus 接受所有輸入,并利用 PyTorch 和 TensorFlow 來訓(xùn)練生成的模型 cuDNN 進(jìn)行 GPU 加速,利用 Magnum IO 進(jìn)行
    的頭像 發(fā)表于 04-14 14:58 ?1575次閱讀

    NVIDIA 集合通信庫加快深度學(xué)習(xí)訓(xùn)練速度

    NVIDIA 集合通信庫(NCCL)可實(shí)現(xiàn)針對 NVIDIA GPU 和網(wǎng)絡(luò)進(jìn)行性能優(yōu)化的 GPU
    的頭像 發(fā)表于 07-30 09:02 ?2854次閱讀

    NVIDIA AI機(jī)器人開發(fā)— NVIDIA Isaac Sim入門

    NVIDIA 最新公開課來了,本次將圍繞用于開發(fā)和訓(xùn)練智能機(jī)器人的模擬平臺—— NVIDIA Isaac Sim 。 NVIDIA
    的頭像 發(fā)表于 10-19 15:58 ?2517次閱讀

    堅(jiān)米智能借助NVIDIA Isaac Lab加速四足機(jī)器人開發(fā)

    堅(jiān)米智能(中堅(jiān)科技)借助NVIDIA Isaac Lab平臺,通過NVIDIA Isaac Sim的 3D 生成與建模技術(shù)構(gòu)建高度逼真的虛擬
    的頭像 發(fā)表于 12-29 14:01 ?1874次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    本案例中,Pantheon Lab(萬想科技)專注于數(shù)字人技術(shù)解決方案,通過 NVIDIA 技術(shù)實(shí)現(xiàn)數(shù)字人實(shí)時(shí)對話與客戶互動(dòng)交流。借助 NVIDIA GPU
    的頭像 發(fā)表于 01-14 11:19 ?831次閱讀

    簡述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布了對NVIDIA Isaac的重要更新。NVIDIA Isaac 是一個(gè)由加速庫、應(yīng)用框架和 AI
    的頭像 發(fā)表于 01-17 09:57 ?1574次閱讀
    簡述<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b>的重要更新

    NVIDIA技術(shù)驅(qū)動(dòng)帕西尼觸覺感知與人形機(jī)器人智能突破

    本案例中通過在 NVIDIA Isaac 平臺集成觸覺仿真器,借助 NVIDIA Isaac Sim 平臺的 3D 場景生成技術(shù)和 NVIDIA
    的頭像 發(fā)表于 04-21 09:15 ?1006次閱讀

    NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了機(jī)器人仿真參考應(yīng)用 NVIDIA Isaac Sim 和機(jī)器人學(xué)習(xí)框架 NVIDIA Isa
    的頭像 發(fā)表于 05-28 10:06 ?1558次閱讀

    NVIDIA Isaac Sim 4.5.0與lsaac Lab 2.0的安裝教程

    Isaac Sim 和 Isaac Lab 目前開放下載的版本是 Isaac Sim 4.5.0 以及 Isaac
    的頭像 發(fā)表于 06-19 15:00 ?1595次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> Sim 4.5.0與lsaac <b class='flag-5'>Lab</b> 2.0的安裝教程

    NVIDIA Isaac Sim和Isaac Lab現(xiàn)已推出早期開發(fā)者預(yù)覽版

    NVIDIA 發(fā)布了機(jī)器人仿真參考應(yīng)用 Isaac Sim 和機(jī)器人學(xué)習(xí)框架 Isaac Lab 的開發(fā)者預(yù)覽版。開發(fā)者現(xiàn)在可以通過 GitHub 訪問早期版本,搶先體驗(yàn)先進(jìn)功能,用于
    的頭像 發(fā)表于 07-04 14:23 ?1282次閱讀

    NVIDIA Isaac Lab推動(dòng)機(jī)器人技術(shù)突破

    Isaac LabIsaac Gym 的替代版本,該框架已將 GPU 原生機(jī)器人仿真擴(kuò)展至大規(guī)模模態(tài)學(xué)習(xí)的全新領(lǐng)域。
    的頭像 發(fā)表于 10-21 11:20 ?311次閱讀