18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-08-22 15:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多個(gè)新的前沿開源模型相繼問世,標(biāo)志著大語言模型 (LLM) 創(chuàng)新浪潮的加速。近日發(fā)布的 Dynamo 0.4 提供了一系列新功能,旨在規(guī)?;?、低成本地部署此類模型,其核心功能包括性能優(yōu)化、可觀察性和基于服務(wù)等級(jí)目標(biāo) (SLO) 的自動(dòng)擴(kuò)展。

Dynamo 0.4 的主要亮點(diǎn)包括:

在 NVIDIA Blackwell 上通過 PD 分離將性能提升 4 倍

提供針對(duì) NVIDIA 高性能計(jì)算平臺(tái)的大規(guī)模專家并行部署指南

新的 prefill-decode (PD) 配置工具,簡(jiǎn)化 PD 分離架構(gòu)設(shè)置

支持基于 SLO 的 PD 自動(dòng)擴(kuò)展,并集成 Kubernetes

內(nèi)置可觀察性指標(biāo),支持實(shí)時(shí)性能監(jiān)測(cè)

通過實(shí)時(shí)請(qǐng)求重定向和早期故障檢測(cè)提升系統(tǒng)韌性

通過下文了解更多關(guān)于這些更新的信息。

Dynamo 0.4 如何通過PD 分離將推理性能提高至 4 倍

Dynamo 0.4 大幅提升了 NVIDIA Blackwell 上的 PD 分離服務(wù)性能。在 NVIDIA Blackwell 架構(gòu) GPU 上使用 Dynamo 和 TensorRT-LLM 運(yùn)行新的 OpenAI gpt-oss-120b 模型,能夠在不降低吞吐量的情況下,將長(zhǎng)輸入序列(常見于智能體工作流、代碼生成和摘要任務(wù))場(chǎng)景下的交互速度(Token / 秒 / 用戶)至高提速 4 倍。

此外,在 NVIDIA 高性能計(jì)算平臺(tái)上基于 TensorRT-LLM 和 Dynamo 運(yùn)行 DeepSeek-R1 671B 模型,能夠在不增加推理成本的情況下,將吞吐量(Token / 秒 / GPU)提升 2.5 倍。

ef0358fc-7e7e-11f0-a18e-92fbcf53809c.png

圖 1. PD 分離服務(wù)解決了 prefill 與 decode 之間的資源競(jìng)爭(zhēng)問題,能夠在不增加 GPU 預(yù)算的情況下顯著提升性能。

(注:圖中結(jié)果僅供技術(shù)探討和參考,并且不代表最大吞吐量或最小延遲性能。復(fù)制此鏈接至瀏覽器查看最新推理性能:https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference)

圖中的性能提升來源于使用 Dynamo 進(jìn)行的 PD 分離服務(wù),該架構(gòu)將模型推理的 prefill 和 decode 階段分離到獨(dú)立的 GPU 上。通過分離這兩個(gè)階段,Dynamo 能夠根據(jù)每個(gè)階段的具體需求靈活分配 GPU 資源和模型并行策略,從而大幅提高整體效率。

我們十分高興能夠發(fā)布這些腳本,使社區(qū)能夠復(fù)現(xiàn)這些結(jié)果并充分發(fā)揮 PD 分離服務(wù)架構(gòu)的成本效益。參見以下 GitHub 鏈接:

使用 Dynamo 和 TensorRT-LLM 部署 OpenAI gpt-oss-120b:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

使用 Dynamo 和 TensorRT-LLM 部署 DeepSeek-R1 671B:

https://github.com/ai-dynamo/dynamo/tree/main/components/backends/trtllm/performance_sweeps

為了幫助研究者、工程師和企業(yè)探索 PD 分離服務(wù)架構(gòu)下的 MoE 模型部署優(yōu)勢(shì),我們還提供了詳盡的部署指南,分步指導(dǎo)用戶在多節(jié)點(diǎn)環(huán)境中使用 Dynamo 部署 DeepSeek-R1 (結(jié)合 SGLang) 和 Llama4 Maverick (結(jié)合 TensorRT-LLM)。參見以下 GitHub 鏈接:

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技術(shù)博客 1:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-gb200.md

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技術(shù)博客 2:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-h100.md

使用 Dynamo 和 TRT-LLM 部署 Llama4 Maverick:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/llama4_plus_eagle.md

如何簡(jiǎn)化消除 PD 分離最佳配置的大量猜測(cè)和試錯(cuò)的工作

我們從采用 PD 分離服務(wù)的推理團(tuán)隊(duì)了解的主要挑戰(zhàn)之一,是如何估算預(yù)期吞吐量收益,并確定適合其特定部署的正確配置。具體而言,用戶反饋難以決定分配 prefill 和 decode 階段的 GPU 數(shù)量,以及在滿足目標(biāo) SLO 前提下,如何選擇模型并行策略。

為此,我們推出AIConfigurator,這是一個(gè)專為推薦最佳 PD 分離配置和模型并行策略設(shè)計(jì)的新工具,根據(jù)特定模型和 GPU 預(yù)算滿足 SLO 要求。

ef1212ac-7e7e-11f0-a18e-92fbcf53809c.png

ef1e28d0-7e7e-11f0-a18e-92fbcf53809c.png

圖 2.AIConfigurator CLI 控制面板的截圖,它可視化了吞吐量與延遲間的權(quán)衡及 PD 分離的收益。在相似的延遲水平下,使用 PD 分離架構(gòu)將 Qwen3-32B 模型部署在 512 個(gè) GPU 組成的集群中,可使吞吐量提高至 2.36 倍。

AIConfigurator 利用大量離線采集的模型各層(包括注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò) (FFN)、通信和顯存)性能數(shù)據(jù),并對(duì)各種調(diào)度技術(shù)(靜態(tài)批處理、動(dòng)態(tài)批處理和 PD 分離服務(wù))進(jìn)行建模,推薦 PD 配置,在給定 GPU 預(yù)算內(nèi)滿足用戶定義的 SLO,并最大化每個(gè) GPU 的吞吐量,然后自動(dòng)生成可無縫部署到 Dynamo 的后端配置。

AIConfigurator 支持命令行界面 (CLI) 和網(wǎng)頁界面,初期支持 NVIDIA Hopper 上的 TensorRT-LLM。未來版本將陸續(xù)支持更多推理框架和 NVIDIA 硬件。

如何在不對(duì) GPU 過度或不足配置的情況下,持續(xù)滿足推理 SLO

在今年 5 月的 0.2 版本中,我們推出了首版規(guī)劃器 (Planner),專為生成式 AI 推理和 PD 分離設(shè)計(jì)的 GPU 自動(dòng)擴(kuò)展引擎。它能夠通過監(jiān)測(cè) prefill 隊(duì)列和 decode 內(nèi)存使用情況,智能增減推理工作節(jié)點(diǎn),最大化 GPU 利用率并最小化推理成本。

在 0.4 版本中,我們進(jìn)一步完善了 Planner,新增基于 SLO 的自動(dòng)擴(kuò)展功能,使推理團(tuán)隊(duì)不僅能夠降低成本,還能穩(wěn)定地滿足嚴(yán)格的性能指標(biāo),例如首 Token 延遲 (TTFT)、Token 間延遲 (ITL)。

與傳統(tǒng)的響應(yīng)式擴(kuò)展系統(tǒng)不同,新的基于 SLO 的 Planner 采用前瞻性策略:

使用部署前性能分析,理解不同模型并行和批處理配置下的部署表現(xiàn)。

基于 SLO 推薦最具成本效益的引擎配置。

使用 ARIMA 或 Prophet 等先進(jìn)的時(shí)間序列模型預(yù)測(cè)未來流量模式。

計(jì)算在預(yù)測(cè)需求下滿足 SLA 目標(biāo)所需的最小 PD 工作節(jié)點(diǎn)數(shù)量。

持續(xù)評(píng)估流量模式并動(dòng)態(tài)調(diào)整 PD 工作節(jié)點(diǎn)以持續(xù)滿足目標(biāo) SLA。

Planner 的與眾不同之處在于能夠預(yù)測(cè)輸入 / 輸出序列長(zhǎng)度變化的影響,并在出現(xiàn)瓶頸前,主動(dòng)擴(kuò)展資源規(guī)模。

基于 SLO 的 Planner 使推理團(tuán)隊(duì)能夠:

把控用戶體驗(yàn)和基礎(chǔ)設(shè)施成本

在不過度或不足配制資源的前提下維持 SLA 性能

無需手動(dòng)調(diào)優(yōu)即可優(yōu)化 GPU 使用率

Planner 原生集成 Kubernetes,便于已經(jīng)采用容器化基礎(chǔ)設(shè)施的企業(yè)能夠輕松部署 Dynamo,并使用 Planner 擴(kuò)展其 AI 工作負(fù)載。此版本加入了對(duì) vLLM 的支持,未來將持續(xù)支持更多推理框架。。

如何追蹤實(shí)時(shí)推理可觀察性指標(biāo)

可觀察性在大規(guī)模分布式推理環(huán)境中至關(guān)重要,使工程團(tuán)隊(duì)能夠監(jiān)測(cè)系統(tǒng)健康狀況、診斷性能瓶頸并滿足嚴(yán)格的 SLO,根據(jù) SLO 的要求不斷實(shí)時(shí)優(yōu)化延遲、吞吐量和 GPU 利用率。

ef2fd3dc-7e7e-11f0-a18e-92fbcf53809c.jpg

圖 3. 顯示 Dynamo 采集的關(guān)鍵性能指標(biāo)的 Grafana操作面板

在新發(fā)布的 Dynamo 0.4 中,事件、控制和數(shù)據(jù)平面的 Dynamo 工作節(jié)點(diǎn)和組件會(huì)輸出關(guān)鍵的可觀察性指標(biāo),包括:

每秒平均請(qǐng)求數(shù)和請(qǐng)求持續(xù)時(shí)間

平均的首 Token 延遲 (TTFT) 和 Token 間延遲 (ITL)

平均輸入和輸出序列長(zhǎng)度

GPU 利用率和功耗

這些指標(biāo)通過開源的 Prometheus 工具采集,無需進(jìn)行定制開發(fā)即可輕松集成到 Grafana 等開源監(jiān)測(cè)和可觀察性工具中。

本版本還包含一個(gè) API,供工程團(tuán)隊(duì)和解決方案架構(gòu)師定義和輸出適配其服務(wù)環(huán)境的自定義指標(biāo),進(jìn)一步提高了靈活性和可擴(kuò)展性。

Dynamo 0.4 中的可觀察性基礎(chǔ)為后續(xù)版本奠定了基礎(chǔ),未來將引入更具細(xì)粒度、針對(duì)特定用例的指標(biāo),包括與 PD 分離相關(guān)的指標(biāo)。

Dynamo 0.4 如何提升系統(tǒng)彈性和早期故障檢測(cè)能力

大規(guī)模部署前沿推理 MoE 模型需要支持?jǐn)?shù)百 GPU 的多節(jié)點(diǎn)環(huán)境。在此類部署中,任何軟硬件組件的故障(無論持續(xù)時(shí)間多短)都會(huì)中斷整個(gè)系統(tǒng)的運(yùn)行,并導(dǎo)致用戶請(qǐng)求延遲或失敗,進(jìn)而影響業(yè)務(wù)運(yùn)營(yíng),損害用戶體驗(yàn)。

Dynamo 0.4 版本引入了實(shí)時(shí)請(qǐng)求重定向(inflight request re-routing)等容錯(cuò)和彈性功能。在之前的版本中,發(fā)送到離線 GPU 的請(qǐng)求會(huì)失敗,并回退到推理?xiàng)I蠈踊蛴脩舳耍@會(huì)觸發(fā)重試流程,即重復(fù)執(zhí)行預(yù)處理步驟(如 Token 化和嵌入),浪費(fèi)計(jì)算資源并增加延遲。經(jīng)過此次更新,Dynamo 會(huì)在請(qǐng)求執(zhí)行中動(dòng)態(tài)重定向,保留中間計(jì)算結(jié)果并直接轉(zhuǎn)發(fā)至在線 GPU,從而消除冗余工作。

ef3a515e-7e7e-11f0-a18e-92fbcf53809c.jpg

圖 4. 生成過程中未啟用(圖片上半部)和啟用(圖片下半部)實(shí)時(shí)請(qǐng)求重定向的系統(tǒng)工作流差異示意圖。

此外,此版本引入了更快的故障檢測(cè)機(jī)制。在之前的版本中,etcd(Dynamo 控制平面中的關(guān)鍵組件)負(fù)責(zé)檢測(cè)離線工作節(jié)點(diǎn)并向系統(tǒng)廣播其狀態(tài)。但這會(huì)引發(fā)幾秒鐘的延遲,在此期間請(qǐng)求仍可能被路由到離線工作節(jié)點(diǎn)。新版本在 Dynamo 智能路由器 (Smart Router) 中引入了早期故障檢測(cè)功能,使其能夠繞過 etcd 并響應(yīng)關(guān)鍵健康信號(hào),縮短了故障檢測(cè)到恢復(fù)的時(shí)間窗口,顯著減少了失敗請(qǐng)求。

如何參與 Dynamo 開發(fā)者社區(qū)互動(dòng)

歡迎您加入我們的 Discord 社區(qū) (https://discord.gg/ZXRE8epz),來與其他開發(fā)者交流、分享反饋并獲得實(shí)時(shí)支持。如果您對(duì)我們的開發(fā)方向感興趣,請(qǐng)?jiān)L問官方 Dynamo GitHub 開源資源庫 (https://github.com/ai-dynamo/dynamo)。我們歡迎社區(qū)的貢獻(xiàn)、問題反饋和想法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5444

    瀏覽量

    108565
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5050

    瀏覽量

    134009
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3892

    瀏覽量

    45337
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3618

    瀏覽量

    51533

原文標(biāo)題:Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自動(dòng)擴(kuò)展和實(shí)時(shí)可觀察性

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1最小延遲場(chǎng)景中的性能紀(jì)錄

    本文探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的頭像 發(fā)表于 07-02 19:31 ?2756次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1<b class='flag-5'>在</b>最小延遲場(chǎng)景中的<b class='flag-5'>性能</b>紀(jì)錄

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    人工智能模型規(guī)模和復(fù)雜性呈指數(shù)級(jí)增長(zhǎng),對(duì)先進(jìn)計(jì)算能力和內(nèi)存容量的需求變得至關(guān)重要。Blackwell圖形處理器架構(gòu)通過
    發(fā)表于 05-13 17:16

     華為云MongoDB彈性伸縮能力提升100

    的高性能并非一蹴而就,這與華為云深厚的技術(shù)積累息息相關(guān)。   10數(shù)據(jù)重構(gòu)性能提升,得益于數(shù)據(jù)復(fù)制功能卸載到分布式共享存儲(chǔ)。分布式存儲(chǔ)
    發(fā)表于 08-03 13:00

    Blackwell GB100能否超級(jí)計(jì)算機(jī)和AI市場(chǎng)保持領(lǐng)先優(yōu)勢(shì)?

    NVIDIA 下一代 Blackwell GB100 傳采用芯片堆棧設(shè)計(jì)提升效能和效率,但也面臨工藝和封裝的挑戰(zhàn),能否超級(jí)計(jì)算機(jī)和 AI
    的頭像 發(fā)表于 10-24 17:43 ?1910次閱讀

    NVIDIA推出搭載GB200 Grace Blackwell超級(jí)芯片的NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋時(shí)間 3 月 18 日發(fā)布新一代 AI 超級(jí)計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級(jí)芯片的 NVIDIA DGX Sup
    的頭像 發(fā)表于 03-21 09:49 ?1664次閱讀

    NVIDIA Hot Chips 大會(huì)展示提升數(shù)據(jù)中心性能和能效的創(chuàng)新技術(shù)

    、處理器及系統(tǒng)架構(gòu)師領(lǐng)域的深度技術(shù)盛會(huì),Hot Chips 已經(jīng)成為價(jià)值萬億美元的數(shù)據(jù)中心計(jì)算市場(chǎng)的一個(gè)重要論壇。 本周舉行的 Hot Chips 2024 ,NVIDIA 的高
    的頭像 發(fā)表于 08-28 16:38 ?861次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>在</b> Hot Chips 大會(huì)展示<b class='flag-5'>提升</b>數(shù)據(jù)中心<b class='flag-5'>性能</b>和能效的創(chuàng)新技術(shù)

    NVIDIA Blackwell平臺(tái)帶來性能躍升

    Blackwell 完成的每一項(xiàng)測(cè)試,都為各項(xiàng) AI 應(yīng)用樹立了訓(xùn)練性能新標(biāo)桿。
    的頭像 發(fā)表于 11-19 14:24 ?950次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本; NVIDI
    的頭像 發(fā)表于 03-20 15:03 ?933次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?1289次閱讀

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
    的頭像 發(fā)表于 03-20 18:35 ?1729次閱讀

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA Blackwell加速計(jì)算機(jī)輔助工程軟件,實(shí)現(xiàn)實(shí)時(shí)數(shù)字孿生性能數(shù)量級(jí)提升

    、Altair、Cadence、Siemens 和 Synopsys 等在內(nèi)的領(lǐng)先計(jì)算機(jī)輔助工程(CAE)軟件供應(yīng)商正在使用 NVIDIA Blackwell 平臺(tái)加速其仿真工具,速度提升高達(dá) 50
    的頭像 發(fā)表于 03-21 15:12 ?1047次閱讀

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用

    融合設(shè)計(jì)專業(yè)知識(shí)與加速計(jì)算,推動(dòng)科技創(chuàng)新、實(shí)現(xiàn)能效和工程生產(chǎn)力方面的突破性進(jìn)展,引領(lǐng)全球生活新范式 內(nèi)容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系統(tǒng),求解器的速度
    的頭像 發(fā)表于 03-24 10:14 ?1106次閱讀

    NVIDIA Dynamo新增對(duì)亞馬遜云科技服務(wù)的支持

    亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo
    的頭像 發(fā)表于 07-28 14:31 ?637次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Dynamo</b>新增對(duì)亞馬遜云科技服務(wù)的支持

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來

    Jetson AGX Orin,AI 算力提升至 7.5 ,能效提升至 3.5 ,能夠?qū)崿F(xiàn)實(shí)時(shí)推理,這對(duì)于高性能物理 AI 應(yīng)用至關(guān)重
    發(fā)表于 08-26 09:28 ?1134次閱讀
    基于 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?2230次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測(cè)試分析