18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么計算軟件庫是AI成功的關鍵

穎脈Imgtec ? 2024-10-18 08:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

老話常說,“你付出什么,就得到什么”,這可能是總結接下來幾段內容的最簡單方式,我們將介紹Imagination的新OpenCL計算庫。如果你沒有時間繼續(xù)閱讀,只需記住這一點:我們能夠從GPU中擠壓出更多的計算和AI性能,因為我們在這些新軟件庫的精心設計上投入了大量工作,這樣我們的客戶就不必再投入這些工作了。對于一些客戶來說,這種開箱即用的體驗正是他們完成工作所需的。而對于其他客戶,特別是那些正在開發(fā)自己的自定義庫/內核的客戶,Imagination的計算庫以及相關的支持材料和工具,是他們在開發(fā)和性能目標上取得成功的一個完美起點。

Imagination多年來一直在構建支持OpenCL的GPU,用于計算應用。我們與許多企業(yè)合作,這些企業(yè)擁有自己的NPU(神經處理單元),但需要一個GPU(通用GPU)來提供NPU通常不具備的編程靈活性。我們還看到市場上普遍認識到靈活性是必不可少的,尤其是在從“功能到性能再到優(yōu)化”的開發(fā)者旅程中針對自己的計算算法時。我們在之前的文章《擁抱邊緣AI中的靈活性》中討論了通用加速相對于特定領域加速的優(yōu)勢,并強調開發(fā)者的賦能在于提供適合工作的軟件。


什么是正確的軟件呢?

數學庫和神經網絡庫被廣泛認為是在可編程平臺上高效執(zhí)行AI應用和其他計算密集型工作負載的基本構建塊。車內駕駛員監(jiān)控應用、激光雷達、雷達、視覺預/后處理算法,甚至是像LLM這樣的基礎模型中的transformer塊的關鍵處理元素,都依賴于底層優(yōu)化的庫。對這些基本構建塊的需求催生了大量的開源項目(如clBLAS、vkFFT、xnnpack等),任何開發(fā)者現(xiàn)在都可以快速訪問并在他們的應用中使用這些庫,以實現(xiàn)其功能。

然而,最初的完成工作的熱情往往很快會被失望所取代,因為開發(fā)者發(fā)現(xiàn),使用開源庫的性能遠遠低于他們基于可用硬件TFLOPS/TOPS的預期。隨后,這種失望很快會變成持續(xù)的挫敗感,因為用戶面對的現(xiàn)實是,要解決這些問題,需要深入了解硬件微架構和開發(fā)者工具。


這是一個新問題嗎?

在我職業(yè)生涯的早期,我花了幾年時間深入優(yōu)化用于音頻和視頻算法的DSP代碼,任何在邊緣計算領域工作過的人都會講述類似的故事:通宵達旦地吃著披薩,與算法、編譯器和硬件調試器斗爭,以獲得所需性能。盡管自那時以來,技術取得了許多進步,比如新的并行編程語言和智能編譯技術,但歸根結底,情況并沒有太大改變。對最高性能的需求依然存在,而這只能通過手工優(yōu)化的算法和底層庫及內核來滿足。如果沒有這些性能庫,最近流行的“加速計算”這一術語就無法實現(xiàn)其承諾,即充分利用底層硬件的潛力來加速計算任務。換句話說,如果不投資于軟件,客戶就永遠無法真正解鎖硬件的潛力。這是一個新問題嗎?顯然不是!從任何系統(tǒng)中獲得最優(yōu)性能的挑戰(zhàn)一直都很困難,并且仍然如此。解決這個問題需要廣泛的專業(yè)知識:1. 對算法及其算法實現(xiàn)選擇的深刻理解(通常問題具有多維度,有許多分解方式可供選擇)。
2. 深入了解硬件微架構以及可用于利用上述架構選擇的各種選項。3. 了解編程語言的靈活性和功能,以及相關編譯器的“智能”。4. 在一段時間內持續(xù)應用上述知識,為用戶可能需要的多種可能性開發(fā)良好的覆蓋范圍。優(yōu)秀的程序員能夠將所有這些要素結合在一起,并且再加上只有最有經驗的編碼人員才能掌握的一點點魔法,從而從硬件中獲得非常好的甚至最優(yōu)性能的。但這樣的程序員是稀缺的。

因此,為了讓加速計算的承諾對每個人來說都可實現(xiàn),Imagination將其專業(yè)知識應用于這個問題。畢竟,我們的工程師是最適合為我們自己的硬件創(chuàng)建優(yōu)化庫的人。


Imagination的解決方案是什么?Imagination的GPU產品的靈活微架構為智能映射和并行化工作負載提供了許多機會,以最大化計算引擎和內存層次帶寬(GPU內部和外部)的利用率。為了實現(xiàn)最優(yōu)性能,Imagination的一個跨職能專家團隊解決了上述所有問題,并應用了我們對運行時系統(tǒng)中動態(tài)元素的深入理解,例如運行時OpenCL編譯器和硬件的動態(tài)調度。從這項活動中獲得的經驗反饋到硬件和編譯器設計的改進中,通過我們的AI產品路線圖,這個良性循環(huán)將持續(xù)進行。在發(fā)布時,Imagination的OpenCL計算庫通常能夠實現(xiàn)比客戶使用開源解決方案所報告的性能提升3倍到4倍的更好結果。

在新發(fā)布的DXS GPU中,這些庫與專注于計算的硬件改進相結合,例如額外的SPU(可擴展處理單元)和額外的FP16流水線,對于許多計算工作負載,相比我們上一代的汽車GPU,性能提升了10倍或更多。


還有什么?

我們這些基礎庫的目標是專注于我們作為IP公司的核心價值:最大限度地發(fā)揮我們芯片的性能,并使用戶能夠做到同樣的事情。但除此之外,我們還在做什么?我們現(xiàn)在專注于兩個關鍵領域:1. 提供參考計算和AI工具包,使客戶能夠在實際用例中利用這些計算庫。

2. 構建我們的領域專家合作伙伴生態(tài)系統(tǒng),幫助客戶通過解決方案和服務加速其上市目標。

我們最近與MulticoreWare和澎峰科技的合作就是創(chuàng)新合作伙伴基于我們的計算庫構建AI解決方案,并利用我們的參考工具包的兩個范例。


澎峰科技為希望加速AI的企業(yè)開發(fā)異構計算軟件堆棧和基礎設施解決方案。我們使用Imagination的計算軟件解決方案在Imagination GPU上運行各種AI應用,包括我們的LLM推理引擎PerfXLM,迄今為止與CPU相比性能提升高達100%,而移植所需的時間極少。

——澎峰科技首席執(zhí)行官張先軼

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    37247

    瀏覽量

    292093
  • 計算軟件
    +關注

    關注

    0

    文章

    56

    瀏覽量

    11391
  • 軟件庫
    +關注

    關注

    0

    文章

    15

    瀏覽量

    7927
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網AGI系統(tǒng) 優(yōu)勢: 組成部分: 2)分布式AI訓練 7、發(fā)展重點:基于強化學習的后訓練與推理 8、超越大模型:神經符號計算 三、AGI芯片的實現(xiàn) 1、技術需求 AI取得
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經形態(tài)計算、類腦芯片

    功耗和并行處理信息能力。 類腦芯片的理論基礎是神經形態(tài)計算,即借鑒生物神經系統(tǒng)信息的處理模式和結構,以人腦為藍本、旨在構建能夠像人腦一樣學習、感知及決策的計算系統(tǒng)。 實現(xiàn)神經形態(tài)極端的關鍵技術是SNN
    發(fā)表于 09-17 16:43

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    流體芯片 ⑤AI計算平臺 ⑥基于AI的自主決策系統(tǒng) ⑦基于AI的自主學習系統(tǒng) 2、面臨的挑戰(zhàn) ①需要造就一個跨學科、全面性覆蓋的知識和科學
    發(fā)表于 09-17 11:45

    QNX亮相2025未來汽車AI計算大會

    由蓋世汽車主辦的第五屆未來汽車AI計算大會于9月10日至11日成功舉行。本次大會歷時一天半,大會圍繞智算中心、汽車軟件、大算力芯片、中央計算
    的頭像 發(fā)表于 09-16 16:26 ?712次閱讀

    AI 邊緣計算網關:開啟智能新時代的鑰匙?—龍興物聯(lián)

    在數字化浪潮的當下,AI 邊緣計算網關正逐漸嶄露頭角,成為眾多行業(yè)轉型升級的關鍵力量。它宛如一座智能橋梁,一端緊密連接著各類物理設備,如傳感器、攝像頭、工業(yè)機器等,負責收集豐富的數據信息;另一端則
    發(fā)表于 08-09 16:40

    求助,關于NanoEdge AI Studio生成的交叉編譯器版本疑問求解

    20231009\", 那么問題來了,怎么在NanoEdge AI Studio設定交叉編譯器呢,比如設置為armcc、armclang、iccram,因為我需要將加到keil或者iar工程里面。 看樣子這個軟件生成的
    發(fā)表于 08-08 07:25

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發(fā)個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度
    發(fā)表于 07-09 18:30

    AI知識的搭建與應用:企業(yè)數字化轉型的關鍵步驟

    隨著數字化轉型的加速,AI技術已經成為提升企業(yè)運營效率、優(yōu)化客戶體驗、推動業(yè)務創(chuàng)新的重要工具。而AI知識作為企業(yè)智能化的基礎,發(fā)揮著至關重要的作用。通過構建高質量的知識,企業(yè)能夠更
    的頭像 發(fā)表于 03-27 15:18 ?931次閱讀

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    力集群的部署過程中,帶寬瓶頸成為制約算力發(fā)揮的關鍵因素,而光模塊的速率躍升成為突破這一瓶頸的核心驅動力。 光模塊速率躍升 隨著算力集群的規(guī)模不斷擴展,AI應用所需的帶寬要求也在急劇上升。傳統(tǒng)
    發(fā)表于 03-25 12:00

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構與部署本地知識

    。RAG技術建立在向量數據的基礎上,通過高維向量空間中的相似度計算來實現(xiàn)語義層面的匹配,這比傳統(tǒng)的關鍵詞搜索更能捕捉文本的深層語義關聯(lián)。 第七章通過一個本地知識的搭建案例展示了RA
    發(fā)表于 03-07 19:49

    計算HPC軟件關鍵技術

    計算HPC軟件關鍵技術涉及系統(tǒng)架構、處理器技術、操作系統(tǒng)、計算加速、網絡技術以及軟件優(yōu)化等多個方面。下面,
    的頭像 發(fā)表于 12-18 11:23 ?671次閱讀

    開源AI模型是干嘛的

    開源AI模型是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練,能夠執(zhí)行特定的任務。以下,是對開源AI模型的詳細
    的頭像 發(fā)表于 12-14 10:33 ?1118次閱讀

    Arm成功將Arm KleidiAI軟件集成到騰訊自研的Angel 機器學習框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件集成到騰訊自研的 Angel 機器學習框架。 ? 借助 KleidiAI 解鎖卓越性能、能效和可移植性,騰訊混元大模型能夠實現(xiàn)更快
    的頭像 發(fā)表于 11-24 15:33 ?1558次閱讀

    AI云端計算資源有哪些類型

    AI云端計算資源涵蓋了從基礎設施到軟件服務的多個層面,為AI模型的訓練、推理和部署提供了強大的支持。下面,AI部落小編為您詳細介紹
    的頭像 發(fā)表于 11-15 09:39 ?828次閱讀