?
在這一大背景下,存算一體成為國產(chǎn)算力突破的重要手段。近日,在杭州舉辦的 RISC-V 存算一體產(chǎn)業(yè)論壇暨應(yīng)用組啟動(dòng)大會(huì)上,微納核芯、浙江省北大信息技術(shù)高等研究院、知合計(jì)算、小米移動(dòng)、浪潮計(jì)算機(jī)、紫光展銳、兆易創(chuàng)新、北京智芯、上海兆芯、安路信息、英韌科技、麒麟軟件、清微智能、進(jìn)迭時(shí)空、算能科技、澎峰科技、希姆計(jì)算、千芯科技、雄安安算、元石智算、塵點(diǎn)科技、凌川科技、新華三等企業(yè)與機(jī)構(gòu)代表及行業(yè)專家齊聚一堂,共同確立了 “RISC-V + 存算一體” 技術(shù)的標(biāo)準(zhǔn)化路線圖,旨在為國產(chǎn)芯片應(yīng)對(duì)大模型時(shí)代的算力挑戰(zhàn)提供核心支撐。
?

會(huì)上,杭州微納核芯首席科學(xué)家葉樂教授作了題為《三維存算一體 3D-CIM:賦能 RISC-V AI 生態(tài)》的報(bào)告,分享了微納核芯在三維存算一體(3D-CIM)技術(shù)領(lǐng)域的探索與實(shí)踐,以及該技術(shù)如何為 RISC-V AI 生態(tài)注入新活力,助力我國芯片產(chǎn)業(yè)實(shí)現(xiàn)自主可控。
?

3D-CIM 助力國產(chǎn)算力騰飛
如上所述,后摩爾定律時(shí)代,國產(chǎn)算力芯片發(fā)展面臨更為嚴(yán)峻的挑戰(zhàn),葉樂教授在此列舉了三點(diǎn):?·算力密度瓶頸:摩爾定律逐漸逼近物理極限,傳統(tǒng)芯片依賴先進(jìn)工藝提升算力的路徑愈發(fā)艱難。
·數(shù)據(jù)帶寬瓶頸:大模型參數(shù)量動(dòng)輒達(dá)千億級(jí)別,在傳統(tǒng)馮?諾依曼架構(gòu)下,計(jì)算單元與存儲(chǔ)單元分離,數(shù)據(jù)搬運(yùn)量遠(yuǎn)超算力需求,數(shù)據(jù)通道如同 “交通堵塞”,嚴(yán)重制約大模型應(yīng)用效率。
?
·軟硬件生態(tài)瓶頸:現(xiàn)有 AI 硬件發(fā)展缺乏標(biāo)準(zhǔn)指令集與工具鏈,軟件生態(tài)多被美西方掌控,自主生態(tài)建設(shè)面臨高昂的遷移成本與兼容難題。
?
他認(rèn)為,要克服這些挑戰(zhàn),急需發(fā)展 “基于現(xiàn)有國產(chǎn)工藝條件、突破上述關(guān)鍵挑戰(zhàn)的新架構(gòu)技術(shù)路線 + 開源自主可控生態(tài)” 的創(chuàng)新路徑。微納核芯團(tuán)隊(duì)經(jīng)過多年深耕,提出了以三維存算一體為核心的創(chuàng)新技術(shù)路線,從存儲(chǔ)與計(jì)算的融合入手,結(jié)合 RISC-V 開源生態(tài)優(yōu)勢,構(gòu)建全棧自主可控的技術(shù)體系。
?
在存算一體技術(shù)路線選擇上,微納核芯堅(jiān)定采用數(shù)字域路線。相較于模擬域存算,數(shù)字域存算具備計(jì)算精度高、可靠性強(qiáng)的優(yōu)勢,支持高精度浮點(diǎn)計(jì)算與軟件量化方式,更符合未來產(chǎn)業(yè)規(guī)?;瘧?yīng)用需求。通過在微觀層面將存儲(chǔ)單元與計(jì)算單元融合,存算一體技術(shù)可實(shí)現(xiàn)張量計(jì)算的原位高效處理。
?
在 AI 應(yīng)用中,無論是云端 AI 應(yīng)用、邊緣端應(yīng)用,還是輕量級(jí) AI 應(yīng)用,張量計(jì)算占比均高達(dá) 99% 以上,行業(yè)急需針對(duì)張量計(jì)算的加速解決方案 —— 能高效處理張量計(jì)算的存算一體,成為破局路徑之一。存儲(chǔ)單元與計(jì)算單元的微觀融合,不僅大幅縮短數(shù)據(jù)路徑距離、緩解帶寬瓶頸,更能顯著提升算力密度與計(jì)算能效。
?
葉樂教授表示,存算一體的理想技術(shù)路線需考量四大因素:?
·大存儲(chǔ)容量:可存儲(chǔ)大模型所有參數(shù),并滿足模型規(guī)模增長的需求;
·高密度存儲(chǔ):能在有限的面積資源下,存儲(chǔ)所有大模型參數(shù);
·高可擦寫次數(shù):大模型計(jì)算需頻繁更新 KV Cache,存儲(chǔ)器須具備高次數(shù)更新能力;
·快讀寫速度:高吞吐率的大模型推理對(duì)存儲(chǔ)器的讀寫速度提出較高要求。
?
綜合考量各項(xiàng)技術(shù)的優(yōu)劣勢后,微納核芯選擇基于 SRAM 實(shí)現(xiàn)數(shù)字域存算一體。據(jù)流片實(shí)測結(jié)果顯示,SRAM 存算一體在同工藝下的算力密度相比傳統(tǒng)架構(gòu)提升 4 倍;經(jīng)多次流片驗(yàn)證,其在 22nm 工藝下可實(shí)現(xiàn)傳統(tǒng) NPU/GPU 路線在 7nm 工藝下相當(dāng)?shù)乃懔γ芏?;與傳統(tǒng) NPU/GPU 路線相比,計(jì)算能效提升 5-10 倍。此外,微納核芯的 SRAM 存算一體芯片基于全國產(chǎn)供應(yīng)鏈,且相比 7nm 芯片成本降低 4 倍。目前,微納核芯已完成 SRAM 存算一體全棧軟件棧的初版設(shè)計(jì),涵蓋仿真器、指令集、算子庫、編譯器及軟件棧。
?
葉樂教授指出,微納核芯 SRAM 存算一體之所以能實(shí)現(xiàn)上述優(yōu)勢,離不開 3D-CIM 技術(shù)的支撐。為進(jìn)一步突破帶寬瓶頸,微納核芯引入 3D 近存架構(gòu),構(gòu)建 3D-CIM。該架構(gòu)將存算一體計(jì)算芯片與 DRAM 存儲(chǔ)芯片進(jìn)行三維堆疊,如同為數(shù)據(jù)搬運(yùn)搭建 “專屬電梯”—— 大模型參數(shù)存儲(chǔ)在上層 DRAM 中,調(diào)用時(shí)可直接快速傳輸至下層計(jì)算芯片,大幅提升數(shù)據(jù)帶寬的同時(shí)降低傳輸功耗。這種創(chuàng)新架構(gòu)實(shí)現(xiàn)了存算一體與近存計(jì)算的完美融合。
?
?
RISC-V 與 3D-CIM 的融合
那么,在這一創(chuàng)新體系中,RISC-V 架構(gòu)的價(jià)值體現(xiàn)在何處?回歸前文提及的國產(chǎn)算力芯片挑戰(zhàn),在軟硬件生態(tài)瓶頸方面,國內(nèi)面臨的現(xiàn)實(shí)問題是:即便擁有先進(jìn)芯片,編程與使用仍存在諸多困境,例如算子庫需持續(xù)演化、應(yīng)用遷移難度大等。而異構(gòu)融合 AI 計(jì)算借助 RISC-V 生態(tài)體系,通過標(biāo)準(zhǔn)架構(gòu)接口與編譯鏈開展軟件開發(fā),可有效克服這一難題。?
當(dāng)然,RISC-V 架構(gòu)的價(jià)值遠(yuǎn)不止于此。葉樂教授在演講中提到:“我們也清醒地認(rèn)識(shí)到,單一存算一體技術(shù)無法解決所有問題。存算一體雖能高效處理張量計(jì)算,但在標(biāo)量計(jì)算與計(jì)算完備性上存在短板,且面臨編譯難題。而 RISC-V 作為開源、靈活的指令集架構(gòu),恰好能彌補(bǔ)這些不足?!?br /> ?
為此,微納核芯創(chuàng)新提出 RISC-V 與存算一體的異構(gòu)融合架構(gòu):用存算一體模塊處理 99% 的張量計(jì)算,充分發(fā)揮其高算力密度與高能效優(yōu)勢;用 RISC-V CPU 處理 1% 的標(biāo)量計(jì)算,保障計(jì)算完備性。在此基礎(chǔ)上,微納核芯還擴(kuò)展了存算一體專用指令集,覆蓋卷積、全連接、Attention 等主流張量算子,兼容 INT4、FP8、BF16 等多種數(shù)據(jù)格式,實(shí)現(xiàn)與 RISC-V 標(biāo)準(zhǔn)指令集的協(xié)同。通過統(tǒng)一的抽象算子庫與擴(kuò)展編譯器,微納核芯的 SRAM 存算一體芯片成功接入 RISC-V 開源生態(tài),解決了存算一體的軟件生態(tài)難題,為技術(shù)產(chǎn)業(yè)化掃清障礙。
?
在產(chǎn)品規(guī)劃上,葉樂教授透露,微納核芯計(jì)劃于 2026 年第一季度完成芯片流片,第三季度向手機(jī)、PC 等領(lǐng)域的頭部企業(yè)送樣,率先布局 AI 手機(jī)、AIPC 等端側(cè)大模型應(yīng)用;中期將聯(lián)合國產(chǎn)高性能 CPU,推出 3D-CIM 芯片解決方案,有望繞過甚至超越英偉達(dá)現(xiàn)有方案,進(jìn)軍云端大模型市場;遠(yuǎn)期則瞄準(zhǔn)具身智能領(lǐng)域,為 AI 機(jī)器人提供核心算力支撐。
評(píng)論