人成乱码一卡二卡三卡,久久影院综合精品,高清自拍亚洲精品二区

電子發(fā)燒友網(wǎng)綜合報(bào)道隨著AI技術(shù)迅猛發(fā)展，尤其是大型語(yǔ)言模型的興起，對(duì)于算力的需求呈現(xiàn)出爆炸性增長(zhǎng)。這不僅推動(dòng)了智算中心的建設(shè)，還對(duì)網(wǎng)絡(luò)互聯(lián)技術(shù)提出了新的挑戰(zhàn)。

在AI大模型訓(xùn)練過(guò)程中，由于單個(gè)AI芯片的算力提升速度無(wú)法跟上模型參數(shù)的增長(zhǎng)速率，再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù)，已遠(yuǎn)遠(yuǎn)超出單個(gè)AI芯片甚至單臺(tái)服務(wù)器的能力范圍。因此，需要將數(shù)據(jù)樣本和模型結(jié)構(gòu)分散到多個(gè)計(jì)算設(shè)備上，這導(dǎo)致了設(shè)備間的頻繁通信需求。為了適應(yīng)這一變化，智算中心服務(wù)器內(nèi)部的網(wǎng)絡(luò)互聯(lián)技術(shù)變得至關(guān)重要。

芯片間互聯(lián)技術(shù)

AI服務(wù)器的互聯(lián)技術(shù)是保障其高性能計(jì)算能力的關(guān)鍵，涉及芯片間、服務(wù)器內(nèi)以及服務(wù)器間等多個(gè)層面的高速數(shù)據(jù)傳輸。

芯片間互聯(lián)技術(shù)方面，英偉達(dá)、AMD、英特爾都推出了相關(guān)技術(shù)，分別是NVLink、Infinity Fabric、CXL（Compute Express Link）等。NVLink是由NVIDIA開(kāi)發(fā)的GPU之間的高速互連技術(shù)，能加快CPU與GPU、GPU與GPU之間的數(shù)據(jù)傳輸速度，提高系統(tǒng)性能。從2016年到2022年，NVLink歷經(jīng)多次迭代更新，例如基于Hopper架構(gòu)的第四代NVLink，單鏈可實(shí)現(xiàn)50GB/s的雙向帶寬，單芯片可支持18鏈路，即900GB/s的總雙向帶寬。在NVIDIA的DGX H100服務(wù)器中，GPU（H100）之間互聯(lián)主要通過(guò)NV Switch芯片來(lái)實(shí)現(xiàn)，而NV Switch芯片與GPU之間的數(shù)據(jù)傳輸就依賴于NVLink。

AMD推出的Infinity Fabric，由傳輸數(shù)據(jù)的Infinity Scalable Data Fabric（SDF）和負(fù)責(zé)控制的Infinity Scalable Control Fabric（SCF）兩個(gè)系統(tǒng)組成，連接了on-die和off-die以及多路CPU間的通信。最新的AMD Instinct MI300X GPU采用5nm制程，支持客戶將8個(gè)GPU整合為一個(gè)性能主導(dǎo)型節(jié)點(diǎn)，并且具有全互聯(lián)式點(diǎn)對(duì)點(diǎn)環(huán)形設(shè)計(jì)，使用了第4代Infinity Fabric高速總線互聯(lián)，總線帶寬達(dá)到896GB/s（與英偉達(dá)H100的900GB/s帶寬相當(dāng)）。

CXL（Compute Express Link）是英特爾提出的一種開(kāi)放性互聯(lián)協(xié)議，CXL是建立在PCIe物理層之上的協(xié)議，可以實(shí)現(xiàn)設(shè)備之間的緩存和內(nèi)存一致性。利用廣泛存在的PCIe接口，CXL允許內(nèi)存在各種硬件上共享：CPU、NIC和DPU、GPU和其它加速器、SSD和內(nèi)存設(shè)備，從而滿足高性能異構(gòu)計(jì)算的要求。

服務(wù)器內(nèi)互聯(lián)技術(shù)有PCIe Switch、Retimer芯片。PCIe Switch，即PCIe開(kāi)關(guān)或PCIe交換機(jī)，主要作用是實(shí)現(xiàn)PCIe設(shè)備互聯(lián)。由于PCIe的鏈路通信是一種端對(duì)端的數(shù)據(jù)傳輸，需要Switch提供擴(kuò)展或聚合能力，從而允許更多的設(shè)備連接到一個(gè)PCIe端口，以解決PCIe通道數(shù)量不夠的問(wèn)題。例如在AI服務(wù)器中，GPU與CPU連接時(shí)可能需要用到PCIe Switch，并且隨著PCIe總線技術(shù)的升級(jí)，PCIe Switch每代速率提升，能提高數(shù)據(jù)傳輸?shù)乃俣取?br />
在AI服務(wù)器中，GPU與CPU連接時(shí)至少需要一顆Retimer芯片來(lái)保證信號(hào)質(zhì)量，很多AI服務(wù)器都會(huì)配置多顆Retimer芯片。例如Astera Labs在AI加速器中配置了4顆Retimer芯片。

AI服務(wù)器間互聯(lián)技術(shù)

服務(wù)器間互聯(lián)技術(shù)有InfiniBand、RoCE、高速以太網(wǎng)。InfiniBand是一種高性能的網(wǎng)絡(luò)互聯(lián)技術(shù)，具有低延遲、高帶寬的特點(diǎn)，能夠滿足AI服務(wù)器之間超低延遲、超高帶寬的通信需求，適用于大規(guī)模AI模型訓(xùn)練時(shí)服務(wù)器之間的高效通信和數(shù)據(jù)同步。例如訓(xùn)練超大模型往往需要成百上千臺(tái)服務(wù)器組成集群，服務(wù)器之間就需要InfiniBand這樣的網(wǎng)絡(luò)進(jìn)行高效通信。

RoCE（RDMA over Converged Ethernet），基于以太網(wǎng)的RDMA（遠(yuǎn)程直接內(nèi)存訪問(wèn)）技術(shù)，它允許數(shù)據(jù)在網(wǎng)絡(luò)中直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硪慌_(tái)計(jì)算機(jī)的內(nèi)存，而無(wú)需操作系統(tǒng)內(nèi)核的介入，從而降低了延遲，提高了帶寬利用率，可用于AI服務(wù)器間的互聯(lián)，提升數(shù)據(jù)傳輸效率。

高速以太網(wǎng)，如400Gbps甚至800Gbps以太網(wǎng)適配器，能為AI服務(wù)器間提供高速的網(wǎng)絡(luò)連接，保障大規(guī)模集群部署時(shí)服務(wù)器之間的數(shù)據(jù)傳輸性能。例如昆侖芯超節(jié)點(diǎn)結(jié)合百度智能云自研的基于導(dǎo)軌優(yōu)化的HPN（High Performance Network）架構(gòu)，可支撐從數(shù)百卡到上萬(wàn)卡的XPU集群構(gòu)建，其中就涉及到高速以太網(wǎng)技術(shù)的應(yīng)用。

小結(jié)

在AI服務(wù)器中，互聯(lián)技術(shù)的作用已從數(shù)據(jù)傳輸通道升級(jí)為算力釋放引擎。通過(guò)高帶寬、低延遲、可擴(kuò)展的互聯(lián)架構(gòu)，AI服務(wù)器能夠突破單節(jié)點(diǎn)算力瓶頸，實(shí)現(xiàn)萬(wàn)億參數(shù)模型的分布式訓(xùn)練；降低推理延遲，支撐實(shí)時(shí)AI應(yīng)用的商業(yè)化落地；優(yōu)化能效比，應(yīng)對(duì)超大規(guī)模數(shù)據(jù)中心的能耗挑戰(zhàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
37213

瀏覽量
291971
算力

算力

+關(guān)注

關(guān)注
2

文章
1336

瀏覽量
16490

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

算力網(wǎng)絡(luò)的“神經(jīng)突觸”：AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

評(píng)論