用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

作者 |

心緣

編輯 |

漠影

在AI晶片戰場上,存算一體正火力全開。

憑藉“用儲存器做計算”這一獨門絕技,存算一體技術透過底層架構創新,解決了傳統AI晶片長久以來難愈的痼疾——儲存牆、能耗牆及編譯牆。其發展潛能已經被學術界和工業界雙雙看好。

其中有一家創企億鑄科技,選擇了一條目前來看尚屬「

國內首家

」的道路——

研發基於ReRAM(RRAM)全數字存算一體大算力AI晶片,落地於雲端資料中心、智慧駕駛等對算力密度、能效比需求很高的應用場景。

這支有備而來的創業新秀成立於2020年,經過1年時間的準備,自2021年10月正式運營以來,正在全速推進研發。

談及優勢,其團隊非常自信:億鑄科技不僅在ReRAM晶片設計、架構、軟體、系統等方面具有國際領先的實力,而且可以得到從核心IP到工藝的

全鏈國產化

是怎樣的底氣,支撐億鑄創始團隊走上這條之前無人走過的道路?他們將如何克服技術、量產、生態等方面的諸多挑戰?圍繞這些問題,智東西與億鑄科技CTO Debajyoti Pal(Debu)博士進行了一場獨家對話。

Debu已深耕通訊、網路和半導體行業30多年,因其在數字通訊領域做出的開創性貢獻,於2002年當選IEEE院士。他是寬頻接入的先驅,也是AI演算法及架構專家,曾在美國EDA巨頭Cadence及美國明星AI晶片公司Wave Computing負責領導機器學習/深度學習的研發工作,再往前,還曾任高通技術副總裁,負責固定寬頻接入技術的研發。

經過深入交流,Debu向我們講述了億鑄團隊在技術定位和技術戰略上的深謀遠慮,並分享了其產品研發的最新進展以及對AI晶片產業的長期觀察。

用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

▲Debajyoti Pal博士

一、ReRAM商用時代已至,搶佔雲端存算一體落地先機

高能效比,是存算一體AI晶片的獨門殺手鐧。

其實現方法不難理解。傳統馮·諾依曼架構下存算分離,資料需在計算和儲存單元之間頻繁移動,資料搬運的時間甚至會達到計算時間的數百倍,並在此過程造成佔比逾60%-90%的功耗,還會導致計算效率的下降。而存算一體架構能夠從根本上突破這些瓶頸。

存算一體技術按照計算單元與儲存單元在系統中的距離可主要分為近存計算、存內計算等。顧名思義,近存計算是把儲存陣列跟計算模組的距離拉近,而存內計算透過對儲存器件進行改造,使得儲存器件可以直接參與計算。兩類方法均能大幅減少資料搬運,實現計算效率數量級的提升。

用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

▲馮·諾依曼、近存計算、存內計算架構對比(圖源:億鑄科技)

按儲存器件來劃分,存算一體有Flash、SRAM、DRAM等成熟儲存介質,同時ReRAM、MRAM等新型儲存介質也在快速發展。

其中,DRAM多用於近存計算,適合資料中心等大算力場景;此前大部分存內計算採用模擬計算的方法,多選取Flash、SRAM等工藝相對成熟的儲存器。由於難以做到足夠高的精度、算力,這些技術方案大多被用在低功耗、低精度和中小算力的場景。

相比之下,億鑄選擇基於ReRAM用全數字的方式做大算力、高精度、高能效比的存算一體AI晶片,似乎是一個冒險之舉。

但億鑄團隊並不擔心,相反,這是他們經過深思熟慮做出的決定——

作為業界公認的未來儲存器挑大樑者,ReRAM的商業化條件已經成熟,億鑄科技也準備好成為第一個“吃螃蟹的人”。

相較傳統儲存介質,ReRAM擁有儲存密度高、能耗低、讀寫速度快及可下電資料儲存(非易失性)等特點,且生產工藝與CMOS完全相容,可以透過製程工藝的升級迭代持續提升效能和密度。

而且圍繞ReRAM的研發及商業化進展,國內的產業鏈發展也在突飛猛進——中國臺灣的臺積電和中國大陸的昕原半導體,成為唯二實現28nm製程ReRAM量產的公司。

如今,ReRAM已經被業內知名頭部企業採用設計下一代晶片。在2021年臺積電的年報中,以ReRAM為代表的新型儲存介質市場份額在持續提升。億鑄的緊密合作夥伴昕原半導體目前也已經實現28nm製程ReRAM產品的量產出貨。

這些進展持續傳遞出一個訊號:ReRAM技術在存算一體方向的應用和量產已經具備了相應的產業鏈配套保證。

也正因此,億鑄科技的技術能夠實現從

軟體、架構、晶片設計、工藝、製造的國產化,且核心IP均為億鑄自研以及與合作伙伴共同研發

二、高精度+高能效比,單板卡突破1000TOPS

目前來看,億鑄將會是世界上

率先

將存算一體架構切實在AI大算力晶片中設計完成並商用落地的公司。

Debu說,億鑄基於ReRAM全數字存算一體大算力AI晶片,具有

高能效比、高精度、高時延確定性、易部署

等特點。

存算一體架構晶片的能效比,理論上可以做到傳統馮·諾依曼架構晶片的幾十倍甚至百倍以上。基於這一思路,億鑄團隊在存算陣列架構、模擬域全數字化計算、存算一體晶片架構、自動編譯等諸多方面創新設計,實現了億鑄AI晶片可以滿足大算力、高能效比、高精度計算等不同方面的要求。

用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

▲億鑄目標打造AI原生計算架構,用存算一體打破晶片“三堵牆”(圖源:億鑄科技)

許多存算一體廠商選擇的模擬或模數轉換的計算路徑,精度往往會受信噪比的影響,精度上限在4-8bit左右,因此多用在對能效比要求較高、對精確度容忍空間大的小算力場景,不適合用在雲端資料中心。

而億鑄做的全數字化方案,無需ADC/DAC模數和數模訊號轉換器,

不會受到信噪比的影響,精度可以達到32bit甚至更高,既不會產生精度損失

也不會面臨模擬計算帶來的諸如IR-DROP等問題。

因為解決了儲存牆的問題,相比傳統AI晶片方案,存算一體AI晶片能在相同算力下只需更低的功耗,從而節約耗電量和成本;在標準功耗規格的PCIe計算卡上提供更高算力,同在75W功耗的前提下,億鑄ReRAM存算一體大算力板卡算力可達

1POPS(INT8)

以上(1POPS即1000TOPS)。

在資料中心場景中,計算晶片不是單打獨鬥,而需形成多晶片擴充套件、多叢集通訊管理,這對晶片架構本身及軟體均提出了更高的要求。Debu表示億鑄團隊非常有信心實現這個技術要求。

三、打破AI晶片的“第三堵牆”

除了儲存牆、能耗牆外,AI晶片領域還長期面臨第三堵牆——影響晶片易用性的

編譯牆

對於雲端資料中心客戶來說,他們主要關心兩件事:一是擁有成本優勢,二是能否得到與以前方法一致的使用者體驗。而滿足客戶對使用者體驗的要求,則需在軟體上下功夫。

“對於任何AI加速公司來說,你需要建立自己的軟體棧。”Debu強調道,軟體棧能夠利用存算一體架構的優勢,更充分地挖掘硬體效能。

由於存算一體晶片主要用於AI推理,更注重部署能力,只要容量足夠的情況下,其在軟體生態方面沒有特別的限制,由於沒有儲存牆問題,無需最佳化十分複雜的動態資料流,它的軟體最佳化方面會比傳統架構簡單很多。

在底層軟體上

,億鑄SoC及基礎軟體支援當前絕大部分的硬體運算元及軟體運算元,確保上層軟體可以支援絕大多數的AI網路模型。值得一提的是,其AI晶片可以支援Transformer等複雜的神經網路運算元,並預留有運算元擴充套件能力。

在功能上

,億鑄會提供大部分應用場景的網路及示例程式碼,並確保成熟度,絕大部分情況下使用者可以拿去略加修改後使用。

在工具鏈上

,億鑄會提供相應的模型轉換工具,量化工具等方便各種模型進行轉換,從而在億鑄平臺順暢執行。

目前,億鑄科技正在開發

業界首套針對存算一體架構的包括編譯、資源最佳化和部署的軟硬體協同EDA設計工具和應用開發平臺

Debu說,億鑄團隊希望在為整個行業開發編譯器、對映最佳化器等軟體工具方面處於先鋒地位,突破編譯牆,推動存算一體晶片商業化落地及生態構建,讓更多客戶願意採用存內計算方案來作為其業務應用的底層支撐。

四、明年億鑄第一代晶片落地

據Debu透露,當前他的首要目標是確保億鑄第一代晶片的順利推出以及規劃第二代晶片,億鑄科技第一代晶片將於2023年落地,並於同年投片第二代晶片。

億鑄第一代AI晶片採用28nm工藝,具備數倍能效比優勢,尤其二代晶片的計算加速卡的能效比或將實現當前主流AI計算加速卡的

10倍

左右。

目前,億鑄在上海、深圳、杭州、成都以及美國矽谷設有分支機構。Debu稱,隨著公司進一步發展,他們還考慮在印度設立研發中心。

融資方面,億鑄科技在去年12月宣佈其首筆融資——超億元天使輪融資,由聯想之星、中科創星和匯芯投資(國家5G創新中心)聯合領投。

五、業界大牛聯手創業,組建全棧式研發團隊

由於億鑄科技的晶片相關技術都是在國內本土研發及製造,Debu認為這為億鑄帶來另一重優勢——不易受到地緣紛爭的影響。

Debu在電子半導體行業從業超過30年,是IEEE Fellow、曾任美國斯坦福大學EE系的外部特聘教授,在業內不少知名企業中負責管理大型晶片設計專案/團隊。

他曾就職於英特爾公司,是英特爾286微處理器的設計核心成員之一,在美國高通公司擔任印度研發團隊的負責人,在美國AI CGRA架構的明星獨角獸Wave Computing公司擔任AI晶片架構設計副總裁。他也是Amati聯合創始人,該公司後被TI德州儀器成功收購。

加入億鑄之前,他在EDA巨頭Cadence擔任機器學習的首席科學家,在此期間,他負責所有關於演算法、架構、效能分析和建模的前瞻性工作,以及所有下一代深度學習處理器和加速器的演算法和架構,包括DNA100及其後續產品。

Debu還領導了系統性能要求(SPR)、效能分析(PA)、體系結構定義(AD)、模型壓縮、量化和再訓練演算法以及軟體包開發等工作,此外他還曾負責下一代DL技術和產品的戰略規劃,研究和開發基於SRAM的存內計算AI Core,包括架構、電路設計、模擬和效能評估。

除了Debu外,億鑄的其他幾位核心團隊成員,同樣在AI加速、晶片設計、通訊網路等領域積累深厚,擁有主流架構SoC量產交付、系統軟體研發交付及AI演算法研發等方面的豐富經驗。

億鑄科技董事長兼CEO熊大鵬在1983年本科畢業於西安電子科技大學,碩士畢業於華南理工大學,在美國德州大學奧斯汀分校獲得博士學位,其間還獲得應用數學碩士、電氣和計算機工程碩士學位。

他曾任美國知名AI晶片公司Wave Computing的中國區總經理,曾帶領老牌晶片公司埃派克森的晶片產品線幹到世界第二,早在2015年就開始用GPU支援AI演算法的晶片規劃和設計落地,對於不同技術路徑應用於AI大算力場景的優缺點以及該賽道使用者面臨的痛點有著深刻的技術洞察和企業經營實踐。熊大鵬和Debu還都有過半導體風險投資從業經歷。

用ReRAM存算一體突圍大算力AI晶片!深度對話億鑄科技CTO

▲熊大鵬博士

談及人才方面的競爭力,Debu說:“億鑄的

研發團隊學歷背景非常豪華。”

據他介紹,億鑄研發人員來自哈佛大學、斯坦福大學、德州大學奧斯汀分校、清華大學、上海交通大學、復旦大學、中國科學技術大學等國內外知名院校,成員過往發表的頂級期刊或頂會論文總計達40+篇;且產業實踐經驗豐富,核心團隊成員的半導體從業經驗均為30+以及20+年,且均來自業內知名半導體企業。

結語:存算一體,驅動下一代雲計算底層創新

看向未來,Debu對存算一體的前景滿懷信心。

當摩爾定律趨近極限,製造更先進製程晶片的成本愈發高昂,以存算一體為代表的架構創新被視作進一步提升效能的關鍵突破路徑,3D堆疊技術方案也正走向主流,這同樣是Debu非常看好的技術趨勢。

他談道,雲端資料中心場景中,CPU和GPU各司其職,但特定領域計算興起後,卻一直沒有尋找到真正能給這種工作負載帶來大幅效能提升的底層計算架構,而存算正是解決該問題的關鍵。

隨著資料中心支撐的計算規模越來越大,他相信存算一體會產生深遠的影響,包括提高大型資料中心的算力部署密度,降低擴容成本,滿足大型資料中心對節省電力的需求。這也與“雙碳”目標下AI資料中心節能減排的趨勢相契合。

而當存算一體AI大算力晶片向資料中心市場展示出其執行AI工作負載時的成本、功能等優勢,同時易用性方面更加成熟,相信資料中心客戶將逐漸消除對存內計算大算力AI晶片可程式設計性的顧慮,下游市場的發展又將反哺底層晶片的發展,推動基於存算一體AI晶片架構設計及製造工藝的創新與升級。