隨著人工智能技術(shù)的快速發(fā)展,大模型訓(xùn)練和推理對(duì)計(jì)算資源的需求日益增長(zhǎng)。異構(gòu)計(jì)算硬件體系憑借其多樣化的計(jì)算單元組合,成為滿(mǎn)足這一需求的重要解決方案。該體系主要由CPU、GPU、FPGA和ASIC等不同類(lèi)型的處理器構(gòu)成,每種處理器在特定應(yīng)用場(chǎng)景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。
作為通用計(jì)算核心的CPU,以其強(qiáng)大的邏輯控制和任務(wù)調(diào)度能力,在處理復(fù)雜串行任務(wù)時(shí)表現(xiàn)突出。然而,在AI計(jì)算場(chǎng)景中,CPU的并行計(jì)算能力相對(duì)有限,能效比也低于專(zhuān)用加速器。現(xiàn)代CPU通過(guò)集成多核心和SIMD指令集(如AVX-512)等技術(shù),在一定程度上提升了AI計(jì)算性能,但仍與專(zhuān)用硬件存在差距。
GPU最初為圖形渲染設(shè)計(jì),因其強(qiáng)大的并行計(jì)算能力,現(xiàn)已成為AI訓(xùn)練和推理的主流選擇。GPU配備數(shù)千個(gè)計(jì)算核心,在矩陣運(yùn)算和卷積運(yùn)算等AI核心算法上表現(xiàn)優(yōu)異。盡管GPU在能效比方面優(yōu)于CPU,但功耗較高且成本昂貴。在特定算法場(chǎng)景中,GPU的效率可能不及專(zhuān)用芯片。
FPGA以其硬件可重構(gòu)特性,允許用戶(hù)根據(jù)特定應(yīng)用需求定制硬件邏輯,實(shí)現(xiàn)高度優(yōu)化的計(jì)算加速。FPGA在能效比和靈活性方面具有優(yōu)勢(shì),特別適合需要定制化加速的場(chǎng)景。然而,F(xiàn)PGA開(kāi)發(fā)復(fù)雜度高,需要專(zhuān)業(yè)硬件設(shè)計(jì)知識(shí),且運(yùn)行頻率相對(duì)較低,在大規(guī)模部署時(shí)面臨挑戰(zhàn)。
ASIC針對(duì)特定應(yīng)用進(jìn)行優(yōu)化,在能效比和性能方面表現(xiàn)最佳。AI領(lǐng)域的ASIC(如TPU、NPU)針對(duì)深度學(xué)習(xí)算法特點(diǎn)進(jìn)行專(zhuān)門(mén)優(yōu)化,實(shí)現(xiàn)了極高的計(jì)算密度和能效比。然而,ASIC缺乏通用性,開(kāi)發(fā)成本高且周期長(zhǎng),適合大規(guī)模、固定場(chǎng)景的應(yīng)用。
在大模型場(chǎng)景中,不同芯片各有所長(zhǎng):GPU適合大規(guī)模并行訓(xùn)練,ASIC適合高能效推理,F(xiàn)PGA適合特定算法加速,CPU適合任務(wù)調(diào)度和控制。異構(gòu)計(jì)算架構(gòu)通過(guò)合理組合這些計(jì)算單元,可以充分發(fā)揮各自?xún)?yōu)勢(shì),實(shí)現(xiàn)整體系統(tǒng)性能的最優(yōu)化。
從性能功耗比來(lái)看,ASIC表現(xiàn)最優(yōu),GPU次之,F(xiàn)PGA再次之,CPU最低。但從靈活性和開(kāi)發(fā)難度來(lái)看,則呈現(xiàn)相反趨勢(shì)。在實(shí)際異構(gòu)計(jì)算系統(tǒng)中,CPU+GPU組合常用于通用AI訓(xùn)練,CPU+FPGA組合用于需要定制化加速的場(chǎng)景,CPU+ASIC組合則用于大規(guī)模推理部署。這種多樣化的硬件組合,為不同場(chǎng)景下的AI計(jì)算提供了最優(yōu)解決方案。
國(guó)產(chǎn)AI芯片近年來(lái)取得顯著進(jìn)展,形成了多元化的技術(shù)路線(xiàn)和產(chǎn)品體系。主要廠商包括寒武紀(jì)、華為昇騰、海光、壁仞、燧原、沐曦、摩爾線(xiàn)程等,各自推出了具有特色的AI芯片產(chǎn)品。
寒武紀(jì)作為國(guó)內(nèi)AI芯片的領(lǐng)軍企業(yè),專(zhuān)注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,提供云邊端全場(chǎng)景AI芯片產(chǎn)品。其云端產(chǎn)品線(xiàn)包括思元290、思元370等,邊緣端產(chǎn)品線(xiàn)包括MLU220系列,終端產(chǎn)品線(xiàn)包括智能處理器IP。寒武紀(jì)采用自研DSA計(jì)算架構(gòu),與特斯拉DOJO的存算一體架構(gòu)和壁仞科技的近存架構(gòu)形成不同的技術(shù)路線(xiàn)。
華為昇騰系列芯片包括昇騰910和昇騰310等,其中昇騰910是面向訓(xùn)練的高性能AI芯片,昇騰310主要面向推理場(chǎng)景。昇騰芯片采用達(dá)芬奇架構(gòu),支持3D Cube計(jì)算引擎,在AI計(jì)算性能方面具有競(jìng)爭(zhēng)力。華為還推出了MindSpore AI框架,與昇騰芯片深度協(xié)同,形成了全棧AI解決方案。
海光DCU系列是基于GPGPU架構(gòu)的AI加速器,兼容CUDA生態(tài),降低了用戶(hù)遷移成本。海光DCU產(chǎn)品深算一號(hào)在通用計(jì)算和AI計(jì)算方面表現(xiàn)均衡,特別適合科學(xué)計(jì)算與AI融合的應(yīng)用場(chǎng)景。壁仞B(yǎng)R100系列采用近存計(jì)算架構(gòu),在計(jì)算密度和能效比方面具有創(chuàng)新,是國(guó)內(nèi)高端AI芯片的代表之一。
燧原科技、沐曦集成電路、摩爾線(xiàn)程等新興AI芯片企業(yè)也各具特色。燧原科技推出邃思系列AI芯片,采用自研的GCU架構(gòu);沐曦集成電路專(zhuān)注于高性能GPU研發(fā);摩爾線(xiàn)程則面向圖形計(jì)算和AI計(jì)算融合場(chǎng)景。這些企業(yè)的創(chuàng)新推動(dòng)著國(guó)產(chǎn)AI芯片技術(shù)的多元化發(fā)展。
在國(guó)產(chǎn)AI芯片技術(shù)路線(xiàn)中,多數(shù)廠商采用自研指令集,以實(shí)現(xiàn)更好的性能優(yōu)化;在制程工藝方面,普遍采用7nm、5nm等先進(jìn)工藝;在算力指標(biāo)方面,高端產(chǎn)品已接近國(guó)際領(lǐng)先水平;在生態(tài)兼容性方面,通過(guò)支持主流AI框架、提供遷移工具等方式,降低開(kāi)發(fā)者使用門(mén)檻。
從技術(shù)路線(xiàn)來(lái)看,國(guó)產(chǎn)AI芯片主要分為三類(lèi):一是以寒武紀(jì)為代表的NPU路線(xiàn),專(zhuān)注于神經(jīng)網(wǎng)絡(luò)處理;二是以華為昇騰為代表的達(dá)芬奇架構(gòu)路線(xiàn),強(qiáng)調(diào)3D Cube計(jì)算技術(shù);三是以壁仞為代表的類(lèi)GPU路線(xiàn),兼容CUDA生態(tài)。這些不同的技術(shù)路線(xiàn)反映了國(guó)產(chǎn)AI芯片在追趕國(guó)際先進(jìn)水平過(guò)程中的多元化探索。











