RFID世界網(wǎng) > 新聞中心 > 行業(yè)動態(tài) > 正文

破解內(nèi)存墻，除了“存算一體”還需要什么？

作者：劉浩然

來源：與非網(wǎng)eefocus

日期：2023-01-12 14:21:00

摘要：20世紀初的物理學家不會想到，懸浮在物理學大廈上的兩朵烏云會徹底顛覆整個物理學體系，馮·諾依曼在參與曼哈頓工程提出新架構時，也不會想到未來阻止芯片算力進步的竟然不是芯片本身。

關鍵詞：存算一體

導覽：

馮·諾依曼結構的誕生與局限

內(nèi)存墻，繞開還是撞穿？

存算一體離不開新式存儲方式

20世紀初的物理學家不會想到，懸浮在物理學大廈上的兩朵烏云會徹底顛覆整個物理學體系，馮·諾依曼在參與曼哈頓工程提出新架構時，也不會想到未來阻止芯片算力進步的竟然不是芯片本身。

馮·諾依曼結構的誕生與局限

1945年6月30日，美國正在秘密進行曼哈頓計劃。馮·諾依曼作為該計劃的重要參與者與領導者，與另外兩位組內(nèi)科學家發(fā)表了一篇長達101頁的報告，這就是計算機史上著名的“101頁報告”，也是現(xiàn)代計算機科學發(fā)展里程碑式的文獻。

這份文件基于當時世界上第一臺計算機埃尼阿克（ENIAC）提出，詳細闡述了一種新型的計算機架構類型。彼時的電腦雖然采用了世界上最先進的電子技術，但缺乏整理論指導，用現(xiàn)在的話講就是“只堆料，不優(yōu)化”。此外，早期電腦的用途單一，若僅設計用于數(shù)學計算，那它就不能用來處理文字內(nèi)容，變更用途就需要對整體電路進行重新設計。

馮·諾依曼精準找出電腦運行緩慢的關鍵：處理器雖然可以快速完成計算，但在計算間隙，需要進行大量I/O步驟來保存計算的中間數(shù)據(jù)，這極大的拖累了處理器的整體處理速度。他將計算機結構重新調(diào)整，巧妙的將存儲與計算分離，通過內(nèi)部存儲器存儲程序，成功解決了當時計算機存儲容量太小，運算速度過慢的問題。這種結構也創(chuàng)造了一組指令集架構，可以將機器運算轉換為一串串編程語言，讓此機器更有 “彈性”，不再需要頻繁更改電路。后來人們將這種結構定義為馮·諾依曼結構（Von Neumann architecture）。

馮·諾依曼結構

圖源 | 百度百科

馮·諾依曼結構也稱馮·紐曼模型（Von Neumann model）或普林斯頓結構（Princeton architecture），它有以下幾個特點：(1)以運算單元為中心。(2)采用存儲程序原理。(3)存儲器是按地址訪問、線性編址的空間(4)控制流由指令流產(chǎn)生。(5)指令由操作碼和地址碼組成。(6)數(shù)據(jù)以二進制編碼。該結構由運算器、控制器、存儲器、輸入設備、輸出設備五個部分組成。簡單來講，馮·諾依曼結構將電路與程序分離，方便進行后期程序重新調(diào)整；程序員僅通過內(nèi)部存儲器寫入相關運算命令，讓計算機可以快速執(zhí)行運算操作；二進制運算也能大大加快計算機的整體速度。

這種“存算分離”的結構也有自己的局限性：處理器與內(nèi)存間的數(shù)據(jù)交換量同內(nèi)存的整體儲存量相比太小了，隨著處理器技術的發(fā)展，這一比例更為懸殊。在一些特殊使用場景中（尤其是近年來火熱的AI計算領域），處理器需要經(jīng)常等待內(nèi)存的數(shù)據(jù)回傳，超高的延時嚴重拖慢了計算機整體的運行效率，內(nèi)存性能逐漸成為限制計算機發(fā)展的關鍵。與此同時，過高的信息交換量也帶來了嚴重的發(fā)熱問題與功耗問題。內(nèi)存墻、功耗墻與散熱墻成為阻攔計算機算力發(fā)展繞不開的“三堵高墻”。

內(nèi)存墻，繞開還是撞穿？

破解內(nèi)存墻問題目前已經(jīng)成為工業(yè)界和學術界的焦點問題。

繞開，意味著要放棄馮·諾依曼的“存算分離”結構，采用“存算一體”的結構模式來規(guī)避內(nèi)存墻對運算性能的限制。一些研究人員提出了一種以存儲器為中心的體系結構，稱為“智能存儲”。其核心思想是將部分或全部的計算移到存儲中，計算單元和存儲單元集成在同一個芯片，在存儲單元內(nèi)完成運算，讓存儲單元具有計算能力。

“存算一體”結構目前較成熟的方案有查存計算（Processing With Memory）或近存計算（Computing Near Memory），可拉進內(nèi)存與處理器的距離來降低大規(guī)模數(shù)據(jù)交換延時。除了成熟方案，存內(nèi)計算（Computing In Memory）方案目前已成為各廠商的主要發(fā)力點，它的計算操作由位于存儲芯片區(qū)域內(nèi)部的獨立計算單元完成，存儲和計算可以是模擬的也可以是數(shù)字的，一般用于算法固定的場景算法計算。存內(nèi)邏輯（Logic In Memory）屬于較新的架構，通過在內(nèi)部存儲中添加計算邏輯，直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算，真正做到了“存算一體”。它的數(shù)據(jù)傳輸距離最短，同時能滿足大模型的計算精度要求，目前已有部分廠商已經(jīng)在該結構上做出嘗試。

四種存算一體結構

圖源 | 互聯(lián)網(wǎng)

撞穿，意味著要在馮·諾依曼結構內(nèi)部做出技術革新，其核心問題就是提升內(nèi)存處理速度與數(shù)據(jù)傳輸速度。提升傳輸速度需要在總線技術上發(fā)力，光互聯(lián)技術采用波導方式傳輸數(shù)據(jù)，相比硅晶內(nèi)部的載流子傳輸，具有損耗低、速度快、延時小的優(yōu)點，可實現(xiàn)數(shù)據(jù)的高速傳輸，減少功耗。不過，面對內(nèi)存墻無論是繞開還是撞穿，終歸還是要降低內(nèi)存處理的延時，提升整體計算速度，因此降低內(nèi)存本身延時也很關鍵。

存算一體

離不開新式存儲方式

馮·諾依曼結構中，DRAM作為一種能夠快速反應的易失性存儲介質(zhì)，是作為處理器一級內(nèi)存的不二之選。DRAM基于場效應管工作，通過電流控制MOS管開閉來控制電荷進出晶體管，晶體管中的電荷多與少代表了1和0，即每個存儲單位可以儲存1Bit數(shù)據(jù)。當電流消失，晶體管就會釋放所有電荷，因此這種存儲介質(zhì)被稱為易失性存儲介質(zhì)。目前DRAM提升效率的主要方式就是增加工作頻率，2666MHz、3200MHz、3600MHz等參數(shù)就是內(nèi)存的工作頻率。但隨著半導體工藝尺寸逐漸減小，傳統(tǒng)的基于互補金屬氧化物半導體工藝的緩存和主存遭遇了性能瓶頸，量子隧穿問題時刻困擾著內(nèi)存工藝的進步，延時也無法進一步降低。

近年來，各類“存算一體”芯片架構的誕生，讓一部分延時更低的新式存儲方式走進人們視線。其中PCRAM相變儲存器、ReRAM電阻式存儲器、MRAM磁變/磁阻存儲器以及鐵電存儲器FRAM的出現(xiàn)為破解內(nèi)存墻提供了新思路。

PCRAM又稱PCM、OUM（Ovonic UnifiedMemory）和 CRAM（Chalcogenide Random AccessMemory），從名字可以看出，它利用相變材料作為儲存介質(zhì)。PCRAM在工作時通過對相變材料施加不同時長的電脈沖，使相變材料在不同程度的電流熱效應下分別呈現(xiàn)出不同的結晶狀態(tài)，并在兩種狀態(tài)之間快速切換。相變材料在非晶相態(tài)時呈現(xiàn)出半導體特性，具有較高的電阻值；在結晶相態(tài)時呈現(xiàn)出半金屬特性，具有較低的電阻值。因此，可以分別通過相變材料在非晶相態(tài)和結晶相態(tài)時呈現(xiàn)出的不同電阻特性來分別表示需要存儲的數(shù)據(jù)。PCRAM具有較好的微縮能力，目前已經(jīng)可以做到20nm工藝，因此其儲存密度較DRAM更高。此外，由于相變材料可以在晶體態(tài)和非晶體態(tài)之間無極變換，通過更加精密的電阻探測方式，可以在單一存儲單元內(nèi)存儲多Bit數(shù)據(jù)，因此PCRAM未來開發(fā)潛力巨大。

PCRAM 圖源 |百度百科

ReRAM，也稱RRAM，電阻式存儲器，是以非導性材料（金屬氧化物）的電阻在外加電場作用下，在高阻態(tài)和低阻態(tài)之間實現(xiàn)可逆轉換的非易失性存儲器。ReRAM在工作時可以對金屬氧化物施加電壓，使材料的電阻在高阻態(tài)和低阻態(tài)間發(fā)生相應變化，并利用這種性質(zhì)儲存各種信息。與PCRAM原理類似，ReRAM也能在單個存儲單元中存儲多Bit數(shù)據(jù)。與DRAM相比，RRAM不僅滿足高讀寫速度和存儲密度的要求，同時延遲更低，可滿足未來智能駕駛高實時數(shù)據(jù)吞吐量。

ReRAM 圖源 |Objective Analysis

MRAM(Magnetoresistive Random Access Memory)是一種利用磁性工作的非易失性隨機存儲器。它和我們熟悉的“磁帶”不同，MRAM的磁性并不依賴介質(zhì)表面的磁粉，而是基于兩個鐵磁層磁化狀態(tài)來存儲信息，其核心元件就是磁性隧道結 (magnetic tunnel junction，MTJ)，當電流流過MTJ時它會因為存儲信息的不同而表現(xiàn)出不同的阻值。當下的 MRAM 家族成員包括了三類：自旋轉移扭矩 (spin-transfer torque ：STT)、自旋軌道扭矩 (spin-orbit torque：SOT)、電壓控制（VCMA-和 VG-SOT）。

FRAM（FRAM，ferroelectric RAM）鐵電存儲器也是一種特殊工藝的非易失性的存儲器，采用人工合成的鉛鋯鈦(PZT) 材料形成存儲器結晶體存儲數(shù)據(jù)。當一個電場被施加到鐵晶體管時，中心原子順著電場停在低能量位置處，大量中心原子在晶體單胞中移動最終形成極化電荷，然后外界通過判斷鐵晶體管內(nèi)的電荷高低來讀取數(shù)據(jù)。與DRAM相比，F(xiàn)RAM在速度與價格方面都具有較大優(yōu)勢。

FRAM

圖源 |Objective Analysis

值得注意的是，無論是哪種新式存儲方式，目前都存在部分局限性。由于存算一體架構在片內(nèi)計算基本都屬于模擬計算，計算精度完全取決于工藝精度，更不能計算浮點運算，因此新式存儲方式搭配存算一體架構僅適合應用于需要大規(guī)模存儲的場景中。此外新式存儲往往專注于降低延時與持久儲存，往往還不具備Flash、DRAM等成熟工藝的可靠性，還需要繼續(xù)發(fā)展并完善。

總結

隨著摩爾定律逼近極限，芯片算力提升已經(jīng)達到瓶頸，尤其是在需要大規(guī)模存儲的計算場景中，處理器與內(nèi)存的數(shù)據(jù)交換上限逐漸成為新瓶頸。目前存算一體架構搭配延時更低的新存儲方式成為破解內(nèi)存墻的關鍵。

參考資料：

存算一體/感存算一體芯片技術原理

https://mp.weixin.qq.com/s/SChfWoEWSFoeQSW3kjW17w

百度百科：PCRAM、FRAM、ReRAM、MRAM

https://baike.baidu.com/item/MRAM/2090077

https://baike.baidu.com/item/PCRAM/280581

基于硅光子的片上光互連技術研究

https://www.docin.com/p-1647619053.html

破解內(nèi)存墻，除了“存算一體”還需要什么？

破解內(nèi)存墻，除了“存算一體”還需要什么？