NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的NVIDIA DOCA 3.0發(fā)布,每個版本都擴(kuò)展了NVIDIA BlueField DPU和ConnectX SuperNIC的功能,從而實現(xiàn)了前所未有的 AI 平臺可擴(kuò)展性和性能。
通過豐富的庫和服務(wù)生態(tài)系統(tǒng),DOCA 充分利用 BlueField DPU 和 SuperNIC,實現(xiàn)了在超過 10 萬個 GPU 上的超大規(guī)模部署,同時保持嚴(yán)格的租戶隔離并優(yōu)化資源利用率。DOCA 的安全功能可為容器化 AI 工作負(fù)載提供硬件級威脅檢測,而不會對性能造成影響。DOCA 的智能數(shù)據(jù)加速功能解決了 AI 數(shù)據(jù)流水線中的關(guān)鍵瓶頸,而其編排功能則簡化了復(fù)雜的 DPU 加速服務(wù)部署。
本文將介紹 DOCA 3.0,它代表了這些進(jìn)步的最終成果。DOCA 3.0 為 AI 工廠提供全新升級的基礎(chǔ)設(shè)施服務(wù),并為 AI 數(shù)據(jù)中心基礎(chǔ)設(shè)施提供優(yōu)化的框架,為開發(fā)者提供構(gòu)建安全、高效的 AI 基礎(chǔ)設(shè)施所需的必要工具,其規(guī)模之大前所未有。如今,一個廣泛且蓬勃發(fā)展的開發(fā)者社區(qū)正在使用 DOCA,這項技術(shù)將繼續(xù)改變企業(yè)部署、管理和編排基礎(chǔ)設(shè)施的方式,為未來的 AI 創(chuàng)新提供支持。
DOCA 3.0 簡介
在當(dāng)今快速發(fā)展的 AI 領(lǐng)域中,支持大規(guī)模 AI 部署的基礎(chǔ)設(shè)施與模型本身同樣重要。隨著企業(yè)從實驗性 AI 項目擴(kuò)展到生產(chǎn)就緒型部署,底層計算、網(wǎng)絡(luò)和存儲基礎(chǔ)設(shè)施必須不斷發(fā)展,以滿足前所未有的需求。DOCA 正是這一發(fā)展的核心,它正在徹底改變開發(fā)者構(gòu)建、部署和管理下一代 AI 平臺的方式。
最新版本的 DOCA 3.0 為開發(fā)者提供了豐富的庫、驅(qū)動和 API,幫助他們?yōu)?NVIDIA BlueField DPU 和 Connect-X SuperNIC 創(chuàng)建高性能應(yīng)用程序和服務(wù)。這一創(chuàng)新框架可將資源密集型任務(wù)從 CPU 卸載到專用硬件加速器,從而顯著提高 AI 工作負(fù)載的性能、安全性和效率。
DOCA 3.0 的亮點包括:
DOCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
用于 NIM 容器威脅檢測的全新 DOCA Argus 服務(wù)
DOCA 平臺框架(DPF)可信主機用例(GA)
使用 BlueField-3 的 DOCA SNAP Virtio-fs(測試版)文件系統(tǒng)仿真
適用于 AI 計算集群的 DOCA Perftest(GA)RDMA 基準(zhǔn)工具

圖 1:NVIDIA DOCA 3.0 堆棧
超大規(guī)模 GPU 計算:擴(kuò)展多租戶 AI 工廠
構(gòu)建具有更多參數(shù)和訓(xùn)練數(shù)據(jù)的更大規(guī)模 AI 模型的競賽,將計算需求推向了前所未有的高度?,F(xiàn)代 AI 工廠必須支持涵蓋數(shù)萬個 GPU 的大規(guī)模部署,同時保持租戶之間嚴(yán)格的性能隔離。
DOCA 通過其網(wǎng)絡(luò)庫解決這一挑戰(zhàn),這些庫在多租戶環(huán)境中實現(xiàn)高效的資源利用和工作負(fù)載隔離。具體而言,DOCA RDMA 庫提供了對大規(guī)模分布式 AI 訓(xùn)練至關(guān)重要的高性能、低延遲通信功能。該庫支持節(jié)點之間的直接內(nèi)存訪問,無需 CPU 參與,從而顯著降低多 GPU 系統(tǒng)中的通信開銷。
DOCA GPUNetIO 庫通過 GPUDirect Async Kernal-initiated 通信(GDAKI),在網(wǎng)絡(luò)中提供 GPU 之間的直接數(shù)據(jù)路徑,進(jìn)一步增強 GPU 之間的通信,從而實現(xiàn)對分布式訓(xùn)練算法至關(guān)重要的高效集合操作。這些庫與 DOCA 以太網(wǎng)、DOCA RDMA 或 DOCA DMA 協(xié)同工作,構(gòu)建了一個高性能網(wǎng)絡(luò)基礎(chǔ),可以擴(kuò)展到支持超過 10 萬個 GPU 的部署。
傳統(tǒng)的軟件定義數(shù)據(jù)中心方法可能會消耗 30% 甚至更多的服務(wù)器 CPU 核心。通過DOCA Flow等庫將這些功能卸載到 BlueField DPU,DOCA 可以釋放寶貴的 CPU 資源用于 AI 計算,這相當(dāng)于 30 多個 CPU 核心的性能。DOCA Flow 庫支持復(fù)雜的數(shù)據(jù)包處理和流管理,支持大規(guī)模 AI 工廠中復(fù)雜的流量模式。
適用于 AI 工作負(fù)載的多租戶隔離
DOCA 架構(gòu)通過其基于主機的網(wǎng)絡(luò)服務(wù)提供強大的隔離機制,確保來自不同租戶的工作負(fù)載保持安全隔離。該服務(wù)在租戶環(huán)境之間實施硬件強制隔離,防止未經(jīng)授權(quán)的訪問,同時實現(xiàn) AI 的無縫執(zhí)行。對于將敏感 AI 工作負(fù)載與其他應(yīng)用程序一同運行的云服務(wù)提供商和企業(yè)而言,此功能至關(guān)重要。
強大的威脅檢測:實時保護(hù) AI 工作負(fù)載
隨著 AI 系統(tǒng)對業(yè)務(wù)運營的重要性與日俱增,保護(hù)其免受威脅也變得至關(guān)重要。DOCA 釋放了 BlueField DPU 和 SuperNIC 的網(wǎng)絡(luò)安全潛力,支持快速創(chuàng)建和集成應(yīng)用程序,從而卸載和加速加密、分布式防火墻、入侵檢測和網(wǎng)絡(luò)微分段等安全任務(wù)。
通過結(jié)合使用 DOCA 庫,NVIDIA 網(wǎng)絡(luò)安全 AI 平臺利用硬件級檢測提供對網(wǎng)絡(luò)流量和系統(tǒng)行為的深度可視性。與依賴軟件代理的傳統(tǒng)安全解決方案不同,BlueField DPU 充當(dāng)嵌入式安全處理器,可將關(guān)鍵的網(wǎng)絡(luò)安全任務(wù)從傳統(tǒng) CPU 上卸載。這種方法可以在不影響系統(tǒng)性能的情況下實現(xiàn)實時監(jiān)測和保護(hù)。
DOCA 支持的安全應(yīng)用程序可以:
持續(xù)分析遙測數(shù)據(jù),識別潛在威脅的模式和異常
通過 AI 驅(qū)動的異常檢測提供實時威脅檢測
在風(fēng)險升級為重大安全事件之前主動降低風(fēng)險
在 AI 組件之間實施強大的加密和安全通信通道
對于 AI 工作負(fù)載,這種安全架構(gòu)具有顯著優(yōu)勢。AI 模型和訓(xùn)練數(shù)據(jù)通常代表著寶貴的知識產(chǎn)權(quán),因此成為攻擊的主要目標(biāo)。DOCA 支持機密計算功能,可保護(hù)部署在 NVIDIA Blackwell 和 NVIDIA Hopper GPU 上的 AI 模型、算法和數(shù)據(jù)的機密性和完整性。
此外,DOCA 的安全功能能夠應(yīng)對 AI 驅(qū)動環(huán)境中 IT 和 OT 系統(tǒng)融合所帶來的復(fù)雜威脅形勢。通過提供硬件加速的安全功能,DOCA 可確保安全措施不會成為 AI 應(yīng)用的性能瓶頸。
加速下一代 AI 的數(shù)據(jù)處理
數(shù)據(jù)處理是現(xiàn)代 AI 工作流中最重大的挑戰(zhàn)之一。最新一代的 AI 模型需要前所未有的海量訓(xùn)練數(shù)據(jù),這給存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來了巨大壓力。
DOCA 通過其全面的數(shù)據(jù)加速功能來解決這一挑戰(zhàn)。該框架的數(shù)據(jù)路徑加速器利用 BlueField-3 DPA 編程子系統(tǒng)提供一種編程模型,可將以通信為中心的用戶代碼卸載到專用的 DPA 處理器上運行。這種卸載功能可顯著降低 CPU 開銷,同時通過 DPU 加速來提高性能。
此外,為了優(yōu)化 AI 流水線中的數(shù)據(jù)壓縮,DOCA 壓縮庫提供了硬件加速的壓縮和解壓縮功能。此功能可在不增加 CPU 或 GPU 計算負(fù)載的情況下減少數(shù)據(jù)傳輸時間和存儲需求。同樣,DOCA Erasure Coding 庫提供了彈性數(shù)據(jù)存儲功能,這對于保護(hù)寶貴的 AI 數(shù)據(jù)集至關(guān)重要。
為了應(yīng)對現(xiàn)代 AI 工作流帶來的挑戰(zhàn),DOCA Flow 庫實現(xiàn)了 AI 數(shù)據(jù)流水線的高性能網(wǎng)絡(luò),它提供了先進(jìn)的數(shù)據(jù)包處理功能,可優(yōu)化整個網(wǎng)絡(luò)中的數(shù)據(jù)移動。DOCA Rivermax 庫通過提供高級功能來簡化存儲系統(tǒng)和計算節(jié)點之間的數(shù)據(jù)傳輸,從而進(jìn)一步提高網(wǎng)絡(luò)性能。
優(yōu)化 AI 數(shù)據(jù)流水線的網(wǎng)絡(luò)性能
DOCA 基于主機的網(wǎng)絡(luò)(HBN)3.0 為無控制器 VPC 網(wǎng)絡(luò)提供了顯著的可擴(kuò)展性改進(jìn),支持高達(dá)八千個 VTEP 和八萬個 Type-5 路由,并計劃增加對一萬六千甚至更多個 VTEP 的支持。此外,DOCA 3.0 還為 HBN 引入了兩項附加功能:雙向轉(zhuǎn)發(fā)檢測(BFD)支持[GA],通過主動鏈路監(jiān)測實現(xiàn)快速路由收斂,以及 ECMP 故障轉(zhuǎn)移增強功能,通過更快的故障轉(zhuǎn)移確保最大限度的減少停機時間。
總的來說,這些功能使 HBN 成為裸金屬部署的理想選擇,并使 AI 平臺能夠處理存儲系統(tǒng)、計算節(jié)點和外部數(shù)據(jù)源之間的海量數(shù)據(jù)流。
對于 AI 開發(fā)者來說,DOCA 智能數(shù)據(jù)平臺功能可轉(zhuǎn)化為:
降低訓(xùn)練和推理流水線的數(shù)據(jù)處理延遲
提高數(shù)據(jù)密集型 AI 操作的吞吐量
提高計算和存儲基礎(chǔ)設(shè)施的資源利用效率
支持 IPMX 等新興視聽 AI 應(yīng)用標(biāo)準(zhǔn)
增強的 DOCA FireFly 服務(wù)通過硬件加速帶來了先進(jìn)的時間同步功能,提供分布式 AI 訓(xùn)練工作負(fù)載所必需的高精度同步能力。此功能可實現(xiàn)跨 GPU 集群的更高效協(xié)調(diào),這對于大規(guī)模訓(xùn)練和模型并行等技術(shù)尤為重要。
DPU 驅(qū)動的基礎(chǔ)設(shè)施服務(wù)無縫管理
現(xiàn)代 AI 基礎(chǔ)設(shè)施的復(fù)雜性要求具備先進(jìn)的編排能力。DOCA 3.0 針對可信主機的 DOCA 平臺框架(DPF)已正式發(fā)布,它將 Kubernetes 控制平面功能擴(kuò)展到 DPU,使管理員能夠部署和編排 NVIDIA DOCA 服務(wù)和第三方應(yīng)用程序。
DOCA 服務(wù)是基于 DOCA 的容器化產(chǎn)品,采用容器封裝,可在 BlueField DPU 上便捷部署。這些服務(wù)利用 DPU 功能來提供遙測、時間同步、網(wǎng)絡(luò)解決方案等功能,所有這些功能都可以通過 NGC 目錄獲取。

圖 2:DOCA 平臺框架堆棧(GA)
通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 DOCA 服務(wù)。該框架簡化了 DPU 管理的復(fù)雜性,使管理員能夠與熟悉的 Kubernetes 結(jié)構(gòu)進(jìn)行交互。這種方法顯著簡化了 AI 基礎(chǔ)設(shè)施服務(wù)的部署和運維。
DPF 服務(wù)的功能鏈功能可在單個 DPU 上集成加速網(wǎng)絡(luò)、高性能數(shù)據(jù)服務(wù)、安全功能等多種服務(wù)。這種編排功能創(chuàng)建了一個靈活的多供應(yīng)商生態(tài)系統(tǒng),從而為 AI 應(yīng)用提供加速網(wǎng)絡(luò)服務(wù)。
實際部署展示了這種方法的切實優(yōu)勢。NVIDIA DOCA 平臺框架與 Red Hat OpenShift 的集成已顯示出顯著的性能提升,RDMA 測試的平均帶寬達(dá)到 383.72Gb/s。這種網(wǎng)絡(luò)性能水平對于 LLM 等數(shù)據(jù)密集型 AI 工作負(fù)載至關(guān)重要。
對于 AI 平臺運營商,DOCA 基礎(chǔ)設(shè)施服務(wù)編排功能提供:
簡化復(fù)雜 AI 優(yōu)化基礎(chǔ)設(shè)施的部署和管理
強大的生命周期管理,實現(xiàn)無縫的服務(wù)更新、擴(kuò)展和回滾
部署前驗證,確保兼容性和需求得到滿足
實時監(jiān)測和可調(diào)試性,確保高可靠性
加速并保護(hù) NVIDIA NIM 微服務(wù)和 AI 工作負(fù)載
利用 DOCA 平臺框架的先進(jìn)編排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服務(wù)NVIDIA DOCA Argus相結(jié)合,加速和保護(hù) NVIDIA NIM 微服務(wù)和 AI 工作負(fù)載。這凸顯了 DOCA 不斷發(fā)展的價值,并讓我們一窺未來解決方案將如何從框架中不斷涌現(xiàn)。
DOCA Argus 是一個網(wǎng)絡(luò)安全框架,旨在通過在 BlueField DPU 上提供無代理實時威脅檢測來保護(hù) AI 工廠。Argus 獨立于主機系統(tǒng)運行,其攻擊檢測和響應(yīng)速度比傳統(tǒng)解決方案快 1000 倍,且不會影響性能。
它與企業(yè)安全系統(tǒng)無縫集成,提供持續(xù)監(jiān)測和自動威脅緩解。Augus 利用先進(jìn)的內(nèi)存取證和可操作情報,經(jīng)過優(yōu)化,可大規(guī)模保護(hù)容器化和多租戶 AI 工作負(fù)載。
DOCA Argus 與 OVS-DOCA 和 DOCA SNAP Virtio-fs 相結(jié)合,為 NVIDIA BlueField DPU 上的 AI 工作負(fù)載形成了創(chuàng)新的安全解決方案,解決了不同的基礎(chǔ)設(shè)施層問題,同時實現(xiàn)了跨組件威脅緩解。

圖 3:使用 DOCA 3.0 加速并保護(hù)
NIM 微服務(wù)和 AI 工作負(fù)載
DOCA Argus(計算層)通過 DPU 級內(nèi)存和進(jìn)程分析監(jiān)測 AI 工作負(fù)載,并依賴 OVS-DOCA 卸載和隔離網(wǎng)絡(luò)流量(網(wǎng)絡(luò)層)。同時,DOCA SNAP Virtio-fs(存儲層)通過 DPU 模擬的 Virtio 設(shè)備虛擬化文件系統(tǒng)訪問,將存儲 IO 與主機內(nèi)核隔離開來,并為 Argus 提供異常訪問模式的審計日志。
該集成框架將安全性嵌入到計算層、網(wǎng)絡(luò)層和存儲層中,為 NIM 微服務(wù)實現(xiàn)亞毫秒級威脅響應(yīng),同時保持容器化 AI 流水線的可擴(kuò)展性。
開始使用 DOCA 3.0
隨著 AI 持續(xù)變革各行各業(yè),支撐其發(fā)展的基礎(chǔ)設(shè)施必須隨之發(fā)展。NVIDIA DOCA 框架代表著開發(fā)者構(gòu)建和部署 AI 平臺方式的根本性轉(zhuǎn)變,并通過其全面的庫和服務(wù)提供前所未有的性能、安全性和效率。
DOCA SDK 圍繞不同的 DOCA 庫構(gòu)建,旨在充分利用 BlueField DPU 的功能。借助 20 多個專用庫,開發(fā)者可以通過強大的工具包來構(gòu)建優(yōu)化的 AI 基礎(chǔ)設(shè)施。
DOCA 服務(wù)通過為特定用例提供容器化解決方案來補充這些庫。您可以通過NGC 目錄(例如 DOCA 和 DPU)來找到它們。這種容器化方法可以快速部署并簡化對 AI 運營至關(guān)重要的基礎(chǔ)設(shè)施組件的管理。
DOCA 還在持續(xù)演進(jìn),定期更新框架并推出新功能,確保開發(fā)者能夠始終處于 AI 基礎(chǔ)設(shè)施創(chuàng)新的前沿。目前已有成千上萬的開發(fā)者在使用 DOCA,其生態(tài)系統(tǒng)繼續(xù)發(fā)展壯大,為 AI 應(yīng)用開發(fā)帶來了新的可能。
對于希望構(gòu)建下一代 AI 平臺的開發(fā)者,NVIDIA DOCA 提供了全面的工具包,幫助他們充分發(fā)揮 BlueField DPU 和 Connect-X SuperNIC 的潛力,以創(chuàng)建可以擴(kuò)展的基礎(chǔ)設(shè)施來滿足未來 AI 工作負(fù)載需求。通過采用 DOCA,企業(yè)站在 AI 基礎(chǔ)設(shè)施創(chuàng)新的前沿,為 AI 發(fā)展的新紀(jì)元做好準(zhǔn)備。
NVIDIA DOCA 3.0 標(biāo)志著 AI 計算網(wǎng)絡(luò)架構(gòu)和云計算基礎(chǔ)設(shè)施的重大進(jìn)步。
開啟您的開發(fā)之旅,享受 DOCA 提供的一切優(yōu)勢。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5444瀏覽量
108602 -
gpu
+關(guān)注
關(guān)注
28文章
5050瀏覽量
134031 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
8042瀏覽量
92436 -
AI
+關(guān)注
關(guān)注
88文章
37213瀏覽量
291972
原文標(biāo)題:NVIDIA DOCA 3.0 助力 AI 平臺開啟網(wǎng)絡(luò)新紀(jì)元
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Quartus Prime Pro 25.1版本的安裝和使用
NVIDIA RAPIDS 25.06版本新增多項功能
transcosmos在中國發(fā)布全渠道智能客服平臺"transCxLink"3.0版本
NVIDIA將為每家AI工廠提供網(wǎng)絡(luò)安全
NVIDIA虛擬GPU 18.0版本的亮點
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析
英偉達(dá)GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
motorBench 2.45.0版本說明
OurBMC 24.12版本正式上線
英特爾Quartus Prime Pro 24.3版本的全新亮點
豆神AI Windows PC端1.0版本登陸微軟商城
NVIDIA DOCA 2.9版本的亮點解析

NVIDIA DOCA 3.0版本的亮點解析
評論