色婷婷亚洲婷婷7月,国内精品久久久久久久久长长,久久综合九色综合欧美亚洲

亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用NVIDIA Dynamo，包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6，并添加了對 Amazon Simple Storage (S3) 的支持，此外還有與 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的現(xiàn)有集成。此次更新將大規(guī)模部署大語言模型 (LLM) 的性能、可擴(kuò)展性和成本效益提升到了新的水平。

NVIDIA Dynamo 擴(kuò)展并服務(wù)于生成式 AI

NVIDIA Dynamo 是專為大規(guī)模分布式環(huán)境打造的開源推理服務(wù)框架。它支持所有主流推理框架，例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM，并包含高級優(yōu)化功能，例如：

分離服務(wù)：在不同的 GPU 上分離預(yù)填充和解碼推理階段，以提高吞吐量。

LLM 感知路由：通過路由請求，以更大限度地提高 KV 緩存命中率，并避免重復(fù)計(jì)算成本。

KV 緩存卸載：將 KV 緩存卸載至經(jīng)濟(jì)高效的內(nèi)存層級中，以降低推理成本。

這些功能使 NVIDIA Dynamo 能夠?yàn)榇笠?guī)模多節(jié)點(diǎn)的 LLM 部署提供出色的推理性能和成本效益。

與亞馬遜云科技服務(wù)無縫集成

對于在 AWS 云上部署 LLM 的 AWS 開發(fā)者和解決方案架構(gòu)師，Dynamo 將無縫集成到您現(xiàn)有的推理架構(gòu)中：

Amazon S3:Dynamo NIXL 現(xiàn)在支持 Amazon S3，這是一種對象存儲(chǔ)服務(wù)，可提供幾乎無限的可擴(kuò)展性、高性能和低成本。

計(jì)算 KV 緩存需要大量資源且成本高昂。通常會(huì)重復(fù)使用緩存值而不是重新計(jì)算。但是，隨著 AI 工作負(fù)載的增長，重用所需的 KV 緩存量可能會(huì)迅速超過 GPU 甚至主機(jī)顯存。通過將 KV 緩存卸載到 S3，開發(fā)者可以釋放寶貴的 GPU 顯存來處理新請求。這種集成減輕了開發(fā)者構(gòu)建自定義插件的負(fù)擔(dān)，使他們能夠?qū)?KV 緩存無縫卸載到 S3，從而降低總體推理成本。

Amazon EKS:Dynamo 在 Amazon EKS 上運(yùn)行，這是一種完全托管的 Kubernetes 服務(wù)，使開發(fā)者能夠運(yùn)行和擴(kuò)展容器化應(yīng)用程序，而無需管理 Kubernetes 基礎(chǔ)設(shè)施。

隨著 LLM 的規(guī)模和復(fù)雜性不斷增加，生產(chǎn)環(huán)境中的推理部署現(xiàn)在需要高級組件，例如可感知 LLM 的請求路由、分離服務(wù)和 KV 緩存卸載。這些緊密集成的組件增加了在 Kubernetes 環(huán)境中部署的復(fù)雜性。借助這種支持，開發(fā)者可以將 Dynamo 無縫部署到由 EKS 管理的 Kubernetes 集群中，使他們能夠按需快速啟動(dòng)新的 Dynamo 副本，以處理推理工作負(fù)載的突發(fā)增長。

圖 1：使用 Amazon EKS 的 AWS 部署架構(gòu)上的 Dynamo

AWS Elastic Fabric Adapter (EFA):Dynamo 的 NIXL 數(shù)據(jù)傳輸庫支持 Amazon 的 EFA，這是一個(gè)在 Amazon EC2 實(shí)例之間提供低延遲節(jié)點(diǎn)間通信的網(wǎng)絡(luò)接口。

隨著 LLM 規(guī)模的擴(kuò)大并采用稀疏混合專家模型架構(gòu)，跨多個(gè) GPU 進(jìn)行分片可在保持低延遲的同時(shí)提高吞吐量。在這些部署中，針對在 AWS 上運(yùn)行的工作負(fù)載，使用 EFA 跨 GPU 節(jié)點(diǎn)傳輸推理數(shù)據(jù)。借助 Dynamo 的 EFA 支持，開發(fā)者可以通過 NIXL 的前端 API 使用簡單的 get、push 和 delete 命令，在節(jié)點(diǎn)之間輕松移動(dòng) KV 緩存。這樣一來，無需自定義插件即可訪問 Dynamo 的高級功能（如分離服務(wù)），加速 AI 應(yīng)用的生產(chǎn)時(shí)間。

在 Blackwell 驅(qū)動(dòng)的 Amazon P6 實(shí)例上

使用 Dynamo 優(yōu)化推理

Dynamo 與任何 NVIDIA GPU 加速的亞馬遜云科技實(shí)例兼容，但與由 Blackwell 提供支持的 Amazon EC2 P6 實(shí)例搭配使用時(shí)，可顯著提升部署 DeepSeek R1 和最新 Llama 4 等高級邏輯推理模型時(shí)的性能。Dynamo 通過管理預(yù)填充和解碼自動(dòng)縮放以及速率匹配等關(guān)鍵任務(wù)，簡化并自動(dòng)處理分離 MoE 模型的復(fù)雜部署流程。

同時(shí)，Amazon P6-B200 實(shí)例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 帶寬，而由 NVIDIA提供支持的 P6e-GB200 Ultra 服務(wù)器具有獨(dú)特的擴(kuò)展架構(gòu)，可提供 130 TBps 的聚合全互聯(lián)帶寬，旨在加速混合專家模型 (MoE) 部署中廣泛采用的專家并行解碼操作所需的密集型通信模式。Dynamo 和 P6 驅(qū)動(dòng)的 Blackwell 實(shí)例相結(jié)合，可提高 GPU 利用率，提高每美元的請求吞吐量，并推動(dòng)生產(chǎn)級 AI 工作負(fù)載的利潤可持續(xù)增長。

開始使用 NVIDIA Dynamo

深化 Dynamo 與亞馬遜云科技的集成可幫助開發(fā)者無縫擴(kuò)展其推理工作負(fù)載。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的亞馬遜云科技實(shí)例上運(yùn)行。部署 NVIDIA Dynamo，即刻開始優(yōu)化推理堆棧：https://github.com/ai-dynamo/dynamo。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5442

瀏覽量
108491
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5045

瀏覽量
133953
亞馬遜

亞馬遜

+關(guān)注

關(guān)注
8

文章
2710

瀏覽量
85324
kubernetes

kubernetes

+關(guān)注

關(guān)注
0

文章
255

瀏覽量
9363

原文標(biāo)題：NVIDIA Dynamo 新增對亞馬遜云科技服務(wù)的支持，可大規(guī)模提供經(jīng)濟(jì)高效的推理

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持

評論