除了傳統(tǒng)的處理器 (CPU、MPU/MCU、DSP 和 GPU),面向當(dāng)代各種應(yīng)用的高級(jí)處理器(Advanced Processors)層出不窮,例如加速處理單元 (AcceleratedProcessing Unit, APU) 、采用異構(gòu)系統(tǒng)架構(gòu) ( Heterogeneous System Architecture,HSA) 特征設(shè)計(jì)的集成電路、基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN) 深度學(xué)習(xí) (Deep Learning)的高級(jí)處理器等。
1. 加速處理單元
AMD 公司于2006 年收購(gòu)了 ATI 公司,從設(shè)計(jì)傳統(tǒng)的串行計(jì)算處理器 CPU過(guò)渡到并行圖形處理器 GPU;經(jīng)過(guò)研發(fā)升級(jí),再將 CPU 和GPU 合為一體成為APU,集成為單個(gè)芯片,使得微處理器的性能得到改進(jìn),處理能力得以提高。APU 為隨后被擴(kuò)展為 HSA 走出了一條新路。AMD 公司的三代 APU 架構(gòu)開(kāi)發(fā)項(xiàng)目見(jiàn)表 2-15。

2.采用異構(gòu)系統(tǒng)架構(gòu)特征設(shè)計(jì)的集成電路
HSA 最早是由 AMD 公司開(kāi)發(fā)的 APU 概念擴(kuò)展而來(lái)的。HSA 定義了一套計(jì)算機(jī)硬件規(guī)范,其核心為 CPU 標(biāo)量處理和 GPU (或者 DSP)并行處理的結(jié)合。與此相應(yīng)的有開(kāi)源軟件的開(kāi)發(fā)與應(yīng)用,包括系統(tǒng)級(jí) C/C++高級(jí)語(yǔ)言、用于異構(gòu)系統(tǒng)的開(kāi)放計(jì)算語(yǔ)言 (Open Computing Language, OpenCL)結(jié)構(gòu)、針對(duì)三維圖形(例如 GPU)的開(kāi)放圖形庫(kù) (Open Graphics Library, OpenGL)、開(kāi)放多進(jìn)程(Open Multi-Processing, OpenMP)應(yīng)用程序接口、NVIDIA 公司開(kāi)發(fā)的平行計(jì)算與應(yīng)用接口 ( Compute Unified Device Architecture, CUDA) 的模型、支持多種操作系統(tǒng)的Python 等語(yǔ)言。2012年6月由 AMD、ARM、Imagination、聯(lián)發(fā)科(MediaTek)、高通和三星成立了非營(yíng)利組織 HSA 協(xié)會(huì)。HSA 協(xié)會(huì)著重于開(kāi)發(fā)和定義各種處理器(包括 CPU、GPU、DSP)以及存儲(chǔ)器的特點(diǎn)和接口;之后,該協(xié)會(huì)又添加了 ASIC 設(shè)計(jì)公司成員,從而建立起新型的并行計(jì)算異構(gòu)系統(tǒng)架構(gòu),如圖2-31 所示。HSA 包括軟件和硬件兩大部分。軟件包括 OpenCL、OpenMP、CUDA 模型等。圖2-31中 CPU 和其專(zhuān)用存儲(chǔ)器 DDR,以及 GPU 和其專(zhuān)用存儲(chǔ)器 GDDR, 使用指針 (Pointer)功能傳遞,在HSA 系統(tǒng)中形成了共享的系統(tǒng)虛擬存儲(chǔ)器 (System Virtual Memory, SVM)。
3.基于人工神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的高級(jí)處理量
約翰?麥卡錫(John McCarthy)在1956年最早使用了人工智能 (ArtificialIntelligence, AI)這個(gè)詞,他也因此被稱(chēng)為 “人工智能之父”。AI通過(guò)使用機(jī)器學(xué)習(xí) (Machine Learning)而設(shè)計(jì)的產(chǎn)品應(yīng)用廣泛,發(fā)展迅速。1986 年 GeffreyHinton 等人發(fā)表了神經(jīng)網(wǎng)絡(luò)中反向傳播算法(Back-Propagation Algorithm)的文章。2006 年Hinton 的這一研究有了新的突破,并提出了深度學(xué)習(xí)(DeepLearning)的概念。近年來(lái),深度神經(jīng)網(wǎng)絡(luò) (Deep Neural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò) ( Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RecurrentNeural Network,RNN,例如時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),即 Long Short - Term Memory,LSTM)等深度學(xué)習(xí)方法大大推動(dòng)了各種芯片的設(shè)計(jì)進(jìn)程。

Intel 公司 2017 年推出了 Nervana 平臺(tái),利用其 APU 產(chǎn)品 LakeCrest, 采用CPU 與FPGA 重組架構(gòu)設(shè)計(jì),用在深度學(xué)習(xí)的分析算法領(lǐng)域中。另外,Intel于2016-2017 年發(fā)布的高級(jí)CPU 都可以用在深度學(xué)習(xí)的相關(guān)領(lǐng)域。例如,2016年第一季度發(fā)布了 14nm 工藝制造的 Atom x5-Z8330 處理器,含有4 核4線程,L2緩存(Cache)為 2MB, 最高工作頻率為 1.92GHz。 Intel 于 2016 年第四季度發(fā)布了至強(qiáng)(Xeon Phi)系列處理器 7290,含72核,采用14nm 工藝,集成16GB 緩存,工作頻率為 1.5GHz。Intel 于 2017 年發(fā)布了第七代4核處理器 IntelCore-i7 系列,工作頻率為 3.5~4.5GHz。
IBM 公司承擔(dān)美國(guó) DARPA 的 SyNAPSE 項(xiàng)目,基于 CNN 設(shè)計(jì)了認(rèn)知計(jì)算機(jī)(Cognitive Computer),從而于 2014 年設(shè)計(jì)出備受關(guān)注的具有 4096 個(gè) CPU 眾核的真北(TrueNorth) 神經(jīng)網(wǎng)絡(luò)芯片,它有54 億個(gè)晶體管,功耗只有70mW。它模擬2.68 億個(gè)神經(jīng)軸突(Synapse),每個(gè) CPU 核可以模仿 256 個(gè)可編程的神經(jīng)元 (Neuron),總共等效于 100 萬(wàn)個(gè)神經(jīng)元。??
中國(guó)科學(xué)院計(jì)算所2016年報(bào)道了結(jié)合 GPU 和 CPU 的深度學(xué)習(xí)專(zhuān)用處理器寒武紀(jì)(Cambrian)芯片,計(jì)算速度大為提高,為其虛擬現(xiàn)實(shí)研究建立了基礎(chǔ)。寒武紀(jì)1號(hào)(DianNao)芯片采用 65nm 工藝.芯片面積為 3.02mm2,主頻為0.98GHz,功耗為 0.485W,峰值性能達(dá)每秘 4520 億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算。寒武紀(jì)2 號(hào)(DaDianNao)芯片包含 16個(gè)處理器核,采用28nm 工藝,面積為67.7mm2,主頻為 606MHz,功耗約為 16W。據(jù)稱(chēng)與主流 GPU 相比,寒武紀(jì)2號(hào)單芯片性能超過(guò)若干倍,能耗極低,高效能計(jì)算系統(tǒng)性能提升數(shù)百倍。寒武紀(jì)3號(hào)(PuDianNao)芯片采用 65nm 工藝,面積為 3.51mm2,主頻為 1GHz,功耗為0.596W,峰值性能達(dá)每秒10 560 億次基本操作。PuDianNao 運(yùn)行機(jī)器學(xué)習(xí)算法時(shí)的平均性能與主流 GPGPU (通用GPU)相當(dāng),但面積和功耗僅為主流GPGPU 百分之一量級(jí)。???
谷歌公司于2013 年9月從惠普實(shí)驗(yàn)室聘請(qǐng)了計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域?qū)<?NormJouppi,參與開(kāi)發(fā)被稱(chēng)作張量處理器 (Tensor Processing Unit, TPU)的集成電路設(shè)計(jì),使用時(shí)通過(guò) PCle插口去優(yōu)化 CPU 和 GPU 芯片組的運(yùn)行。該TPU 專(zhuān)為深度學(xué)習(xí)平臺(tái)TensorFlow 打造,運(yùn)用高層次機(jī)器深度學(xué)習(xí)與計(jì)算,可以將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)傳輸至人工智能神經(jīng)網(wǎng)絡(luò)中進(jìn)行分析和處理,可以用于語(yǔ)音識(shí)別或圖像識(shí)別等多項(xiàng)機(jī)器深度學(xué)習(xí)。谷歌于 2014 年合并了英國(guó) DeepMind 公司,其具有神經(jīng)智能學(xué)習(xí)功能的阿爾法圍棋(AlphaGo)于2016 年5月打敗了世界頂級(jí)圍棋棋手李世石。AlphaGo 2.0于2017 年6月打敗個(gè)人圍棋大賽四冠王柯潔。阿爾法圍棋是在 TPU 之上運(yùn)行的,在人機(jī)比賽時(shí)最多使用了 1920 個(gè) CPU 和 280個(gè)GPU。谷歌公司于2017 年4月5 日公開(kāi)發(fā)表官方博客,介紹TPU 的架構(gòu),其處理 AI 事務(wù)速度比其他 GPU 與 CPU 結(jié)合模式快 15~30倍,計(jì)算能效高 50~80倍。這些進(jìn)展為未來(lái)各種新型的高級(jí)處理器產(chǎn)品設(shè)計(jì)帶來(lái)新的激勵(lì)。
-
處理器
+關(guān)注
關(guān)注
68文章
20084瀏覽量
243914 -
dsp
+關(guān)注
關(guān)注
559文章
8186瀏覽量
362753 -
amd
+關(guān)注
關(guān)注
25文章
5627瀏覽量
138687 -
gpu
+關(guān)注
關(guān)注
28文章
5050瀏覽量
134031 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5587瀏覽量
123762
原文標(biāo)題:高級(jí)處理器,高級(jí)處理器,Advanced Processors
文章出處:【微信號(hào):Semi Connect,微信公眾號(hào):Semi Connect】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
別讓處理器編號(hào)混淆您的認(rèn)識(shí)
用verilog實(shí)現(xiàn)簡(jiǎn)單的處理器
從Cortex-M到 Cortex-A認(rèn)識(shí)ARM處理器
ADSP-BF527低功耗Blackfin處理器與高級(jí)外圍設(shè)備產(chǎn)品亮點(diǎn)
視頻處理器讓投影變得更簡(jiǎn)單
簡(jiǎn)單認(rèn)識(shí)IA-64架構(gòu)處理器
簡(jiǎn)單認(rèn)識(shí)POWER系列架構(gòu)處理器
簡(jiǎn)單認(rèn)識(shí)MIPS架構(gòu)處理器
簡(jiǎn)單認(rèn)識(shí)數(shù)字信號(hào)處理器

簡(jiǎn)單認(rèn)識(shí)高級(jí)處理器
評(píng)論