物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

破解內(nèi)存墻,除了“存算一體”還需要什么?

作者:劉浩然
來源:與非網(wǎng)eefocus
日期:2023-01-12 14:21:00
摘要:20世紀初的物理學家不會想到,懸浮在物理學大廈上的兩朵烏云會徹底顛覆整個物理學體系,馮·諾依曼在參與曼哈頓工程提出新架構時,也不會想到未來阻止芯片算力進步的竟然不是芯片本身。
關鍵詞:存算一體

導覽:

馮·諾依曼結構的誕生與局限

內(nèi)存墻,繞開還是撞穿?

存算一體離不開新式存儲方式

20世紀初的物理學家不會想到,懸浮在物理學大廈上的兩朵烏云會徹底顛覆整個物理學體系,馮·諾依曼在參與曼哈頓工程提出新架構時,也不會想到未來阻止芯片算力進步的竟然不是芯片本身。

馮·諾依曼結構的誕生與局限

1945年6月30日,美國正在秘密進行曼哈頓計劃。馮·諾依曼作為該計劃的重要參與者與領導者,與另外兩位組內(nèi)科學家發(fā)表了一篇長達101頁的報告,這就是計算機史上著名的“101頁報告”,也是現(xiàn)代計算機科學發(fā)展里程碑式的文獻。

這份文件基于當時世界上第一臺計算機埃尼阿克(ENIAC)提出,詳細闡述了一種新型的計算機架構類型。彼時的電腦雖然采用了世界上最先進的電子技術,但缺乏整理論指導,用現(xiàn)在的話講就是“只堆料,不優(yōu)化”。此外,早期電腦的用途單一,若僅設計用于數(shù)學計算,那它就不能用來處理文字內(nèi)容,變更用途就需要對整體電路進行重新設計。

馮·諾依曼精準找出電腦運行緩慢的關鍵:處理器雖然可以快速完成計算,但在計算間隙,需要進行大量I/O步驟來保存計算的中間數(shù)據(jù),這極大的拖累了處理器的整體處理速度。他將計算機結構重新調(diào)整,巧妙的將存儲與計算分離,通過內(nèi)部存儲器存儲程序,成功解決了當時計算機存儲容量太小,運算速度過慢的問題。這種結構也創(chuàng)造了一組指令集架構,可以將機器運算轉換為一串串編程語言,讓此機器更有 “彈性”,不再需要頻繁更改電路。后來人們將這種結構定義為馮·諾依曼結構(Von Neumann architecture)。

image.png

馮·諾依曼結構

圖源 | 百度百科

馮·諾依曼結構也稱馮·紐曼模型(Von Neumann model)或普林斯頓結構(Princeton architecture),它有以下幾個特點:(1)以運算單元為中心。(2)采用存儲程序原理。(3)存儲器是按地址訪問、線性編址的空間(4)控制流由指令流產(chǎn)生。(5)指令由操作碼和地址碼組成。(6)數(shù)據(jù)以二進制編碼。該結構由運算器、控制器、存儲器、輸入設備、輸出設備五個部分組成。簡單來講,馮·諾依曼結構將電路與程序分離,方便進行后期程序重新調(diào)整;程序員僅通過內(nèi)部存儲器寫入相關運算命令,讓計算機可以快速執(zhí)行運算操作;二進制運算也能大大加快計算機的整體速度。

這種“存算分離”的結構也有自己的局限性:處理器與內(nèi)存間的數(shù)據(jù)交換量同內(nèi)存的整體儲存量相比太小了,隨著處理器技術的發(fā)展,這一比例更為懸殊。在一些特殊使用場景中(尤其是近年來火熱的AI計算領域),處理器需要經(jīng)常等待內(nèi)存的數(shù)據(jù)回傳,超高的延時嚴重拖慢了計算機整體的運行效率,內(nèi)存性能逐漸成為限制計算機發(fā)展的關鍵。與此同時,過高的信息交換量也帶來了嚴重的發(fā)熱問題與功耗問題。內(nèi)存墻、功耗墻與散熱墻成為阻攔計算機算力發(fā)展繞不開的“三堵高墻”。

內(nèi)存墻,繞開還是撞穿?

破解內(nèi)存墻問題目前已經(jīng)成為工業(yè)界和學術界的焦點問題。

繞開,意味著要放棄馮·諾依曼的“存算分離”結構,采用“存算一體”的結構模式來規(guī)避內(nèi)存墻對運算性能的限制。一些研究人員提出了一種以存儲器為中心的體系結構,稱為“智能存儲”。其核心思想是將部分或全部的計算移到存儲中,計算單元和存儲單元集成在同一個芯片,在存儲單元內(nèi)完成運算,讓存儲單元具有計算能力。

“存算一體”結構目前較成熟的方案有查存計算(Processing With Memory)或近存計算(Computing Near Memory),可拉進內(nèi)存與處理器的距離來降低大規(guī)模數(shù)據(jù)交換延時。除了成熟方案,存內(nèi)計算(Computing In Memory)方案目前已成為各廠商的主要發(fā)力點,它的計算操作由位于存儲芯片區(qū)域內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的,一般用于算法固定的場景算法計算。存內(nèi)邏輯(Logic In Memory)屬于較新的架構,通過在內(nèi)部存儲中添加計算邏輯,直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算,真正做到了“存算一體”。它的數(shù)據(jù)傳輸距離最短,同時能滿足大模型的計算精度要求,目前已有部分廠商已經(jīng)在該結構上做出嘗試。

image.png

四種存算一體結構

圖源 | 互聯(lián)網(wǎng)

撞穿,意味著要在馮·諾依曼結構內(nèi)部做出技術革新,其核心問題就是提升內(nèi)存處理速度與數(shù)據(jù)傳輸速度。提升傳輸速度需要在總線技術上發(fā)力,光互聯(lián)技術采用波導方式傳輸數(shù)據(jù),相比硅晶內(nèi)部的載流子傳輸,具有損耗低、速度快、延時小的優(yōu)點,可實現(xiàn)數(shù)據(jù)的高速傳輸,減少功耗。不過,面對內(nèi)存墻無論是繞開還是撞穿,終歸還是要降低內(nèi)存處理的延時,提升整體計算速度,因此降低內(nèi)存本身延時也很關鍵。

存算一體

離不開新式存儲方式

馮·諾依曼結構中,DRAM作為一種能夠快速反應的易失性存儲介質(zhì),是作為處理器一級內(nèi)存的不二之選。DRAM基于場效應管工作,通過電流控制MOS管開閉來控制電荷進出晶體管,晶體管中的電荷多與少代表了1和0,即每個存儲單位可以儲存1Bit數(shù)據(jù)。當電流消失,晶體管就會釋放所有電荷,因此這種存儲介質(zhì)被稱為易失性存儲介質(zhì)。目前DRAM提升效率的主要方式就是增加工作頻率,2666MHz、3200MHz、3600MHz等參數(shù)就是內(nèi)存的工作頻率。但隨著半導體工藝尺寸逐漸減小,傳統(tǒng)的基于互補金屬氧化物半導體工藝的緩存和主存遭遇了性能瓶頸,量子隧穿問題時刻困擾著內(nèi)存工藝的進步,延時也無法進一步降低。

近年來,各類“存算一體”芯片架構的誕生,讓一部分延時更低的新式存儲方式走進人們視線。其中PCRAM相變儲存器、ReRAM電阻式存儲器、MRAM磁變/磁阻存儲器以及鐵電存儲器FRAM的出現(xiàn)為破解內(nèi)存墻提供了新思路。

PCRAM又稱PCM、OUM(Ovonic UnifiedMemory)和 CRAM(Chalcogenide Random AccessMemory),從名字可以看出,它利用相變材料作為儲存介質(zhì)。PCRAM在工作時通過對相變材料施加不同時長的電脈沖,使相變材料在不同程度的電流熱效應下分別呈現(xiàn)出不同的結晶狀態(tài),并在兩種狀態(tài)之間快速切換。相變材料在非晶相態(tài)時呈現(xiàn)出半導體特性,具有較高的電阻值;在結晶相態(tài)時呈現(xiàn)出半金屬特性,具有較低的電阻值。因此,可以分別通過相變材料在非晶相態(tài)和結晶相態(tài)時呈現(xiàn)出的不同電阻特性來分別表示需要存儲的數(shù)據(jù)。PCRAM具有較好的微縮能力,目前已經(jīng)可以做到20nm工藝,因此其儲存密度較DRAM更高。此外,由于相變材料可以在晶體態(tài)和非晶體態(tài)之間無極變換,通過更加精密的電阻探測方式,可以在單一存儲單元內(nèi)存儲多Bit數(shù)據(jù),因此PCRAM未來開發(fā)潛力巨大。

image.png

PCRAM 圖源 |百度百科

ReRAM,也稱RRAM,電阻式存儲器,是以非導性材料(金屬氧化物)的電阻在外加電場作用下,在高阻態(tài)和低阻態(tài)之間實現(xiàn)可逆轉換的非易失性存儲器。ReRAM在工作時可以對金屬氧化物施加電壓,使材料的電阻在高阻態(tài)和低阻態(tài)間發(fā)生相應變化,并利用這種性質(zhì)儲存各種信息。與PCRAM原理類似,ReRAM也能在單個存儲單元中存儲多Bit數(shù)據(jù)。與DRAM相比,RRAM不僅滿足高讀寫速度和存儲密度的要求,同時延遲更低,可滿足未來智能駕駛高實時數(shù)據(jù)吞吐量。

image.png

ReRAM 圖源 |Objective Analysis

MRAM(Magnetoresistive Random Access Memory)是一種利用磁性工作的非易失性隨機存儲器。它和我們熟悉的“磁帶”不同,MRAM的磁性并不依賴介質(zhì)表面的磁粉,而是基于兩個鐵磁層磁化狀態(tài)來存儲信息,其核心元件就是磁性隧道結 (magnetic tunnel junction,MTJ),當電流流過MTJ時它會因為存儲信息的不同而表現(xiàn)出不同的阻值。當下的 MRAM 家族成員包括了三類:自旋轉移扭矩 (spin-transfer torque :STT)、自旋軌道扭矩 (spin-orbit torque:SOT)、電壓控制(VCMA-和 VG-SOT)。

FRAM(FRAM,ferroelectric RAM)鐵電存儲器也是一種特殊工藝的非易失性的存儲器,采用人工合成的鉛鋯鈦(PZT) 材料形成存儲器結晶體存儲數(shù)據(jù)。當一個電場被施加到鐵晶體管時,中心原子順著電場停在低能量位置處,大量中心原子在晶體單胞中移動最終形成極化電荷,然后外界通過判斷鐵晶體管內(nèi)的電荷高低來讀取數(shù)據(jù)。與DRAM相比,F(xiàn)RAM在速度與價格方面都具有較大優(yōu)勢。

image.png

FRAM

圖源 |Objective Analysis

值得注意的是,無論是哪種新式存儲方式,目前都存在部分局限性。由于存算一體架構在片內(nèi)計算基本都屬于模擬計算,計算精度完全取決于工藝精度,更不能計算浮點運算,因此新式存儲方式搭配存算一體架構僅適合應用于需要大規(guī)模存儲的場景中。此外新式存儲往往專注于降低延時與持久儲存,往往還不具備Flash、DRAM等成熟工藝的可靠性,還需要繼續(xù)發(fā)展并完善。

總結

隨著摩爾定律逼近極限,芯片算力提升已經(jīng)達到瓶頸,尤其是在需要大規(guī)模存儲的計算場景中,處理器與內(nèi)存的數(shù)據(jù)交換上限逐漸成為新瓶頸。目前存算一體架構搭配延時更低的新存儲方式成為破解內(nèi)存墻的關鍵。

參考資料:

存算一體/感存算一體芯片技術原理

https://mp.weixin.qq.com/s/SChfWoEWSFoeQSW3kjW17w

百度百科:PCRAM、FRAM、ReRAM、MRAM

https://baike.baidu.com/item/MRAM/2090077

https://baike.baidu.com/item/PCRAM/280581

基于硅光子的片上光互連技術研究

https://www.docin.com/p-1647619053.html

人物訪談