18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人工智能處理器的11個誤解

穎脈Imgtec ? 2025-08-07 13:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)自:TechSugar

編譯自Electronic Design


人工智能浪潮已然席卷全球,將人工智能加速器和處理器整合到各類應(yīng)用中也變得愈發(fā)普遍。然而,圍繞它們是什么、如何運(yùn)作、能如何增強(qiáng)應(yīng)用,以及哪些是真實情況而哪些只是炒作,仍存在諸多誤解。


GPU是最佳的人工智能處理器

盡管GPU在人工智能的實現(xiàn)過程中發(fā)揮了關(guān)鍵作用,而且如今它們的應(yīng)用也極為廣泛,但將其推崇為“最佳”人工智能處理器,未免過于簡化了人工智能硬件不斷演變的格局。

GPU非常適合用于大規(guī)模模型訓(xùn)練,在這類場景中,需要巨大的吞吐量——包括大容量內(nèi)存和高精度——來精準(zhǔn)處理海量數(shù)據(jù)集。而像它具有的處理時間長(可能長達(dá)數(shù)月)、處理效率低(通常僅為個位數(shù))、能耗大(對冷卻構(gòu)成限制),以及延遲較高等缺點,則成了次要問題。

隨著該領(lǐng)域的不斷成熟,“最佳”的定義越來越取決于應(yīng)用的使用模式和需求。GPU曾經(jīng)是合適的答案,但如今已不再是唯一的答案。


人工智能處理器在訓(xùn)練和推理方面表現(xiàn)同樣出色

人們通常認(rèn)為,任何為人工智能優(yōu)化的處理器都能無縫兼顧訓(xùn)練和推理工作。但實際情況是,訓(xùn)練和推理在計算、效率、內(nèi)存、延遲、功耗和精度方面有著截然不同的要求。

一款處理器在某一方面表現(xiàn)出色,并不意味著它在另一方面也能有優(yōu)異表現(xiàn)。這兩個部署階段各自有著不同的計算目標(biāo)和硬件需求。訓(xùn)練注重的是以高精度和大規(guī)模進(jìn)行學(xué)習(xí);而推理則強(qiáng)調(diào)速度、效率和響應(yīng)能力。

若認(rèn)為一款芯片能在這兩方面都表現(xiàn)出色,會導(dǎo)致性能不佳、效率低下,還會錯失優(yōu)化機(jī)會。最佳的系統(tǒng)會將兩者區(qū)分開來,并分別進(jìn)行優(yōu)化。


人工智能處理器僅在數(shù)據(jù)中心有用武之地

在人工智能部署的早期階段,由于模型規(guī)模需要巨大的吞吐量,只有云數(shù)據(jù)中心具備訓(xùn)練和運(yùn)行深度學(xué)習(xí)模型的計算基礎(chǔ)設(shè)施。

而在如今的格局下,隨著推理的普及,人工智能處理器正越來越多地部署在數(shù)據(jù)中心之外的環(huán)境中,從邊緣設(shè)備、移動電話到汽車和工業(yè)系統(tǒng)等,都能看到它們的身影。

如今,人工智能處理器已集成于我們身邊的各種設(shè)備中,在最需要的地方實現(xiàn)更智能的交互、自主決策和實時處理。從云端到邊緣,人工智能無處不在,因為這些地方需要智能。


所有人工智能處理器都可用于通用應(yīng)用

人工智能處理器是專為特定的人工智能任務(wù)而設(shè)計的,比如優(yōu)化矩陣/張量運(yùn)算等。相比之下,通用計算,如運(yùn)行網(wǎng)頁瀏覽器、管理操作系統(tǒng)或執(zhí)行文件壓縮等,需要復(fù)雜的控制流、分支等功能。

一般來說,人工智能處理器架構(gòu)并未實現(xiàn)完整的通用指令集架構(gòu)(ISA),甚至也沒有實現(xiàn)精簡指令集架構(gòu)(RISC)。沒有豐富的指令集架構(gòu)和強(qiáng)大的編譯器支持,它們就無法高效處理非人工智能應(yīng)用。人工智能處理器在其設(shè)計目標(biāo)領(lǐng)域表現(xiàn)出色,但它們并不能普遍替代通用中央處理器(CPU)。若不認(rèn)清這一點,可能會導(dǎo)致系統(tǒng)設(shè)計糟糕、投資浪費(fèi),以及在非人工智能應(yīng)用中出現(xiàn)性能瓶頸。


TOPS數(shù)值越高,性能就越好

每秒萬億次運(yùn)算(TOPS)常被用作人工智能處理器的營銷指標(biāo),但它并不能反映其實際性能。雖然它能衡量人工智能芯片在理想條件下(例如所有計算單元能實現(xiàn)100%利用率)的理論峰值吞吐量,但對于在實際工作負(fù)載中該性能的利用效率卻只字未提。通過使用低精度運(yùn)算(例如用INT4或INT8代替FP16或FP32),每秒萬億次運(yùn)算的數(shù)值可能會被夸大。

一款芯片可能擁有很高的TOPS數(shù)值,但如果數(shù)據(jù)無法快速到達(dá)計算單元,那么其潛在的運(yùn)算能力就會被浪費(fèi)。此外,一種架構(gòu)可能具備巨大的計算潛力,但如果軟件生態(tài)系統(tǒng)不成熟或調(diào)優(yōu)不佳,其性能也會大打折扣。

最后,不同的人工智能任務(wù)需要不同的特性。視覺模型可能受益于高度并行性(這正是TOPS所衡量的方面),但生成式Transformer需要高內(nèi)存吞吐量、緩存一致性和數(shù)據(jù)重用能力,而非原始的TOPS數(shù)值。

TOPS只是理論上的上限,并非性能的保證。這就好比僅通過最高時速來評判一輛汽車,卻不考慮路況、燃油效率或操控性。真正的人工智能性能取決于架構(gòu)的平衡性、軟件棧、數(shù)據(jù)移動效率和模型兼容性,而不僅僅是原始的計算數(shù)值。


芯片越大、核心越多,性能就一定越好

乍一看,芯片越大、處理核心越多,似乎性能就應(yīng)該越好。但實際上,增加芯片面積和核心數(shù)量會帶來顯著的邊際效益遞減,在很多情況下,甚至?xí)档托阅?、效率或可用性?/span>

人工智能工作負(fù)載的性能并不總是隨核心數(shù)量呈線性增長。更大的芯片需要更多的內(nèi)存帶寬來為其計算單元提供數(shù)據(jù),還需要更長的線路和更復(fù)雜的互連結(jié)構(gòu)。這會導(dǎo)致布線擁堵和能耗增加。

性能并不會隨芯片尺寸或核心數(shù)量呈線性增長。更大的芯片會帶來工程、架構(gòu)和經(jīng)濟(jì)方面的權(quán)衡,這些權(quán)衡可能會抵消其理論上的優(yōu)勢。

在人工智能硬件領(lǐng)域,效率、數(shù)據(jù)移動、軟件優(yōu)化和任務(wù)適配往往比單純的芯片尺寸更能決定性能。最佳的芯片并非是最大的,而是最能平衡適配工作需求的。


32位浮點(FP32)是人工智能計算的黃金標(biāo)準(zhǔn)

在深度學(xué)習(xí)訓(xùn)練和推理的早期,32位浮點(FP32)是默認(rèn)格式。隨著人工智能技術(shù)的發(fā)展,人工智能工作負(fù)載已不再采用32位浮點,轉(zhuǎn)而使用精度更低的格式,如16位浮點(FP16)、16位整數(shù)(INT16)或8位整數(shù)(INT8)。

認(rèn)為32位浮點仍是黃金標(biāo)準(zhǔn)的觀點,忽視了使用低精度替代格式在效率、性能和準(zhǔn)確性方面的巨大提升。事實上,通過量化感知訓(xùn)練和混合精度訓(xùn)練等技術(shù),低精度格式能夠達(dá)到甚至超過32位浮點的精度。模型使用16位浮點或8位浮點通常能保持幾乎相同的精度。

因此,32位浮點已不再是黃金標(biāo)準(zhǔn)。如今的趨勢正從整數(shù)格式轉(zhuǎn)向浮點格式,有些人甚至主張使用4位浮點(FP4)。

人工智能計算依賴于精度優(yōu)化,而非最大的位寬。最佳的性能和效率來自于為特定任務(wù)選擇合適的精度,而非使用可用的最高精度格式。


稀疏模式處理優(yōu)先于密集模式處理

與密集計算相比,稀疏計算似乎具有優(yōu)勢。它通過避免處理張量(權(quán)重、激活值甚至數(shù)據(jù))中的零值元素,來減少計算量、內(nèi)存占用和功耗,并在不犧牲模型精度的情況下提高效率。

但事實是,稀疏模式在很大程度上取決于模型結(jié)構(gòu)、數(shù)據(jù)模式和硬件能力。但稀疏性也并非是放之四海而皆準(zhǔn)的優(yōu)化方式,也不能普遍優(yōu)于密集計算。簡單地說,它是一種有條件的優(yōu)化。

在許多情況下,密集模式仍是默認(rèn)選擇,因為它具備成熟、可預(yù)測且兼容性廣泛等優(yōu)點。稀疏性是一種強(qiáng)大的工具,但只有在合適的環(huán)境中并獲得適當(dāng)支持時才能發(fā)揮作用。


高效的標(biāo)量計算是人工智能處理所需的全部

標(biāo)量計算指的是一次對單個數(shù)據(jù)元素執(zhí)行一個操作,它在控制邏輯和編排方面發(fā)揮著重要作用。然而,對于現(xiàn)代人工智能工作負(fù)載的性能和效率需求,標(biāo)量計算遠(yuǎn)遠(yuǎn)無法滿足。

雖然標(biāo)量計算是必要的,但對于人工智能處理來說并不足夠。人工智能的需求需要并行、向量化和矩陣加速計算,而這些最好由為大規(guī)模、并發(fā)工作負(fù)載設(shè)計的定制硬件來處理。


僅通過先進(jìn)的芯粒架構(gòu)就能實現(xiàn)處理效率

基于芯粒的設(shè)計具有多項優(yōu)勢。其中包括,由于更小的芯片更容易制造,因此能提高良率并降低成本;通過實現(xiàn)中央處理器、圖形處理器和加速器等功能的混合搭配,可實現(xiàn)模塊化的可擴(kuò)展性;還能在整個組件中更高效地分布熱量和電力。這些累積的優(yōu)勢常常讓人覺得,效率(尤其是每瓦性能)是其自帶的優(yōu)勢。

盡管芯粒技術(shù)是實現(xiàn)可擴(kuò)展性和集成的有效工具,但真正的處理效率需要為人工智能工作負(fù)載量身打造全新的軟硬件架構(gòu)。這一架構(gòu)藍(lán)圖應(yīng)該包括創(chuàng)新的內(nèi)存架構(gòu)以克服內(nèi)存墻問題、為人工智能應(yīng)用的算法需求量身定制的可動態(tài)重配置計算核心,以及旨在簡化軟件棧的整體設(shè)計。

若不具備上述這些要素,僅靠芯粒無法實現(xiàn)預(yù)期的收益。


CUDA是人工智能處理器的基準(zhǔn)軟件

盡管英偉達(dá)的CUDA已成為人工智能開發(fā)的主流標(biāo)準(zhǔn),但它并非通用基準(zhǔn)。如果有人認(rèn)為CUDA是所有人工智能處理器的基準(zhǔn)或必需接口的觀點,那就忽視了如今不斷涌現(xiàn)的多樣化硬件架構(gòu)和軟件生態(tài)系統(tǒng)。

CUDA是一家供應(yīng)商生態(tài)系統(tǒng)中的主流工具。更廣泛的人工智能行業(yè)正朝著開放、靈活且獨立于硬件的軟件框架發(fā)展。CUDA仍然很重要,但其主導(dǎo)地位正日益受到對可移植性、互操作性和硬件選擇自由的需求的挑戰(zhàn)。人工智能的未來并不局限于一種軟件開發(fā)工具包(SDK),而是多語言、開源且具有平臺感知能力的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20084

    瀏覽量

    243912
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37213

    瀏覽量

    291986
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49536

    瀏覽量

    259354
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    應(yīng)用。 為什么選擇 Neuton 作為開發(fā)人員,在產(chǎn)品中使用邊緣人工智能的兩最大障礙是: ML 模型對于您所選微控制的內(nèi)存來說太大。 創(chuàng)建自定義 ML 模型本質(zhì)上是一手動過程,需
    發(fā)表于 08-31 20:54

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機(jī)械手臂、語音識別、嵌入式傳感等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機(jī)械手臂、語音識別、嵌入式傳感等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:23

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    可以在廣泛的傳感網(wǎng)絡(luò)的每個節(jié)點上進(jìn)行人工智能處理,而在這種網(wǎng)絡(luò)中,傳感的尺寸和成本是關(guān)鍵,空間也非常寶貴。
    發(fā)表于 07-31 11:38

    格羅方德擬收購人工智能處理器IP供應(yīng)商MIPS

    近日,格羅方德(GlobalFoundries)宣布達(dá)成一項最終協(xié)議,擬收購人工智能(AI)和處理器IP領(lǐng)域的領(lǐng)先供應(yīng)商MIPS。此次戰(zhàn)略收購將拓展格羅方德可定制IP產(chǎn)品的陣容,使其能夠借助IP和軟件能力,進(jìn)一步凸顯工藝技術(shù)的差異化優(yōu)勢。
    的頭像 發(fā)表于 07-09 18:03 ?875次閱讀

    開售RK3576 高性能人工智能主板

    ZYSJ-2476B 高性能智能主板,采用瑞芯微 RK3576 高性能 AI 處理器、神經(jīng)網(wǎng)絡(luò)處理器 NPU, Android 14.0/debian11/ubuntu20.04 操
    發(fā)表于 04-23 10:55

    Ampere如何引領(lǐng)并塑造下一代人工智能計算系統(tǒng)

    現(xiàn)代人工智能計算工作負(fù)載給傳統(tǒng)處理器架構(gòu)帶來了前所未有的挑戰(zhàn),已將其推向了極限。
    的頭像 發(fā)表于 04-07 10:15 ?804次閱讀

    支持實時物體識別的視覺人工智能處理器RZ/V2MA數(shù)據(jù)手冊

    DRP-AI 采用了一種由動態(tài)可重構(gòu)處理器(DRP)和 AI-MAC組成的人工智能加速,該加速可加速人工智能推理,實現(xiàn)高速的
    的頭像 發(fā)表于 03-18 18:12 ?663次閱讀
    支持實時物體識別的視覺<b class='flag-5'>人工智能</b>微<b class='flag-5'>處理器</b>RZ/V2MA數(shù)據(jù)手冊

    基于嵌入式人工智能的高速圖像處理的微處理器RZ/A2M數(shù)據(jù)手冊

    和特征提取,與ARM?Cortex?A9 CPU緊密結(jié)合,用于人工智能推理。 *附件:基于嵌入式人工智能的高速圖像處理的微處理器RZA2M數(shù)據(jù)手冊.pdf 特性 中央
    的頭像 發(fā)表于 03-11 15:54 ?750次閱讀
    基于嵌入式<b class='flag-5'>人工智能</b>的高速圖像<b class='flag-5'>處理</b>的微<b class='flag-5'>處理器</b>RZ/A2M數(shù)據(jù)手冊

    端側(cè) AI 音頻處理器:集成音頻處理與 AI 計算能力的創(chuàng)新芯片

    電子發(fā)燒友網(wǎng)綜合報道:端側(cè) AI 音頻處理器是專為智能物聯(lián)網(wǎng)(AIoT)端側(cè)設(shè)備設(shè)計,集成了人工智能(AI)加速的系統(tǒng)級音頻處理器。這類
    的頭像 發(fā)表于 02-16 00:13 ?2768次閱讀

    Embarcadero:人工智能驅(qū)動發(fā)展我們的期望是什么

    發(fā)展的方向。 這是一張在simplified.com上,通過提示“屏幕上有人工智能的筆記本電腦”而生成的人工智能圖像。這一實現(xiàn)令人印象深刻,但同樣任重道遠(yuǎn)。圖像和電影比文本更難處理。難度超過代碼了嗎? 當(dāng)今的
    的頭像 發(fā)表于 01-15 10:46 ?592次閱讀

    人工智能推理及神經(jīng)處理的未來

    人工智能行業(yè)所圍繞的是一受技術(shù)進(jìn)步、社會需求和監(jiān)管政策影響的動態(tài)環(huán)境。機(jī)器學(xué)習(xí)、自然語言處理和計算機(jī)視覺方面的技術(shù)進(jìn)步,加速了人工智能的發(fā)展和應(yīng)用。包括醫(yī)療保健、金融和制造業(yè)在內(nèi)的各
    的頭像 發(fā)表于 12-23 11:18 ?803次閱讀
    <b class='flag-5'>人工智能</b>推理及神經(jīng)<b class='flag-5'>處理</b>的未來

    Banana Pi 攜手 ArmSoM 推出人工智能加速 RK3576 CM5 計算模塊

    的機(jī)器學(xué)習(xí)和人工智能 (ML 和 AI) 工作負(fù)載,以及 Arm Mali G52-MC3 圖形處理器和支持 H.264/H.265/MJPEG 編碼和 H.265/H.265/VP9/AVI1/AVS2
    發(fā)表于 12-11 18:38

    嵌入式和人工智能究竟是什么關(guān)系?

    領(lǐng)域,如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計算機(jī)科學(xué)的一分支,它研究如何使計算機(jī)具備像人類一樣思考、學(xué)習(xí)、推理和決策的能力。人工智能的發(fā)展歷程可以追溯到上世紀(jì)50年代,經(jīng)
    發(fā)表于 11-14 16:39

    對電動汽車電池11誤解的解答

    近幾年,電動汽車技術(shù)快速發(fā)展,尤其是其電池技術(shù),本文將探索關(guān)于電動汽車(EV)電池——這一汽車行業(yè)中最具前景的新技術(shù)之一——的11最常見誤解,以及與無線電池管理系統(tǒng)(BMS)相關(guān)的內(nèi)
    的頭像 發(fā)表于 11-07 17:18 ?1424次閱讀