近20年芯片速度幾乎沒有提升！芯片商只顧著造四核、八核芯片去了！

英特爾 IBM ARM 比爾·蓋茨原理 2017-06-07

什麼是登納德縮放比例定律？為什麼芯片裡總有那麼一部分甚至一大部分是不能同時工作的？那為什麼我們還要費盡心思往集成電路里加更多的晶體管呢？暗硅又是一種怎樣概念？
在上一期的計算機文化系列文章中我們從工程方面討論了計算機的極限，並由此引出了摩爾定律。這一期，我們將從功耗的角度來進一步探討計算機所面臨的極限。

早在1971年，英特爾推出了首個商用，速度僅有740kHz的計算機芯片Intel-4004。在此之後，芯片速度得到了迅速的發展，在不到30年後的2000年就已經突破了2GHz，達到了近3000倍的增長。然而2000年似乎成為了芯片發展速度的一個坎，直到如今市場上多數處理器也在3GHz左右徘徊。

△ Intel C4004微處理器。（圖片來源：Wikipedia）

2001年IBM首先製造出了世界上第一個雙核處理器，使得兩個低速度、低功耗的處理器能在性能方面與當下的單個高速度的處理器相匹敵，並由此開闢了並行化體系結構的市場。

2004年，在AMD發佈了其第一個雙核處理器之後，英特爾更是宣佈取消其對4GHz 處理器的研究，與當時一眾同行一起投入到了多核處理器的研發當中。由此，計算機芯片的發展從之前的更高速的單核研究轉變到了同等甚至更低速的多核研究。究其原因，主要來自於更高速的處理器的功耗和散熱已經達到了不可忽視的地步。

2013年，ITRS 在第二次修正了摩爾定律的同年發表評論，將功耗列為了計算機發展的主要挑戰。那麼這個挑戰從何而來呢？為什麼在如此迅速發展之後突然遇到了門檻呢？這就不得不提到芯片行業發展的又一個定律——登納德縮放比例（Dennard Scaling）。

在瞭解登納德縮放比例定律之前，我們先來看看晶體管的功耗是如何計算的。晶體管的功耗大體分為兩類：一類是靜態功耗，一類是動態功耗。靜態功耗的計算比較好理解，就是常規的電壓乘以電流。而晶體管在做 1 和 0 的相互轉換時會根據轉換頻率的高低產生不同大小的功耗，我們把這個功耗叫做動態功耗，與電壓的平方以及頻率成正比。

近20年芯片速度幾乎沒有提升！芯片商只顧著造四核、八核芯片去了！

△ 羅伯特登納德在1974年發表的論文。（圖片來源：Robert Dennard）

1974年，也就是高登摩爾第一次修正摩爾定律的前一年，羅伯特登納德在發表的論文 “Design of ion-implanted MOSFETS with very small physical dimensions”[1]中表示，晶體管面積的縮小使得其所消耗的電壓以及電流會以差不多相同的比例縮小。也就是說，如果晶體管的大小減半，該晶體管的靜態功耗將會降至四分之一（電壓電流同時減半）。芯片業的發展目標基本上是在保證功耗不變的情況下儘可能提高性能。那麼根據登納德縮放比例，設計者可以大大地提高芯片的時鐘頻率，因為提高頻率所帶來的更多的動態功耗會和減小的靜態功耗相抵消。於是，登納德縮放比例定律同摩爾定律一起引領了芯片行業30多年的飛速發展。因為在往同面積電路中集成更多晶體管的時候，提高芯片時鐘頻率成為了一個“免費的午餐”。

事情發展到2005年前後。在摩爾定律的指導下當晶體管的大小越做越小時，量子隧穿效應（指像電子等微觀粒子能夠穿入或穿越位勢壘的量子行為）開始慢慢介入，使得晶體管漏電現象開始出現。漏電現象的出現打破了原先登納德所提出的定律，使得晶體管在往更小工藝製作時候的靜態功耗不減反增，同時也帶來了很大的熱能轉換，使得芯片的散熱成為了急需解決的問題。如果散熱做的不好，芯片的壽命將大大減少甚至變得不穩定。在這種情況下，提高芯片的時鐘頻率不再是免費的午餐。相反，在沒有解決晶體管漏電的問題之前，單純的增加芯片的時鐘頻率因為隨之而來的散熱問題而變得不再現實。畢竟沒人希望今後需要通過不停的往自家電腦主機裡灌水來散熱。於是芯片研究商們開始紛紛停止高頻芯片的研發，轉而向低頻多核的架構開始研究。這才有了從2001年開始的第一個雙核芯片到現在普遍家用電腦的4核芯片，再到如今英特爾最新架構KnightLanding上的64核的發展。

然而從單核向多核的發展並沒有從根本上解決問題。因為芯片研發商僅僅是停止了高頻單核的研發，但並未停止往同面積的集成電路內加入更多的晶體管。不然就不會有從雙核到四核再到八核的發展了。那麼正如之前所提到的，在登納德縮放比例不再適用，在晶體管越做越小並因晶體管漏電而導致芯片發熱越來越嚴重的今天，芯片製造商們又是如何解決功耗以及散熱的問題呢？答案是，沒有解決！可能你引以為傲，剛買的八核處理器只不過是一個擺設。要解釋這個問題，就需要了解暗硅這個概念。

暗硅這個概念是在2011年在計算機體系結構會議ISCA中首次提出的[2]。作者發現在後登納德時代，為了在現有的散熱技術上保證芯片不至於過熱以及功耗不至於過大，如今多核芯片中已經有一部分不能和其餘部分同時使用。舉個簡單的例子，對於一個65納米下的4核處理器，假如額定功耗允許其四個核能夠同時全速工作。當工藝縮小到32納米的時候，等面積的處理器現在能容下16核了，但是能夠同時工作的還是隻有四個核。而這塊不能和其他部分同時使用的12個核就稱為暗硅。Igor Markov 在論文 “Limits on fundamental limits to computation” 中提到，按照如今的發展速度，現代處理器的暗硅部分很快就能大到99% [3]。也就是說，按照如今的發展，不久之後的芯片，即便是再牛，在同一時間能夠利用的也只是1%。加上越來越多核數的集成，內部連接所導致的的功耗也正在逐漸超過核內運算所導致的功耗。基於這個結果，微軟和IBM共同預測了多核芯片研發在不久將來的終結[4]。

那麼問題來了，既然芯片大部分會成為暗硅，那麼芯片商為什麼還要不斷地往同面積的芯片里加入更多的核呢？為什麼不通過把芯片直接做小來減少成本呢？首先芯片面積的成本根本不重要。隨著芯片越做越小，芯片的面積成本所佔的比重越來越小，從而使得芯片成本不會因為芯片面積縮小而線性縮小。芯片的引腳和封裝開始佔設計成本越來越重要的部分。其次就是商業原因。儘管多出來的核數大多數都是暗硅，但八核處理器聽起來就是比雙核牛逼吧？就是容易在消費者心裡留下更深的印象吧？而且通過一些程序和編譯器的優化設計也確實有可能讓更多的核在更低頻的工作，從而達到系統性能的提升。至少八核處理器的潛力大過雙核，特別是對一些特別任務的加速。雖然這些特殊的任務大部分用戶在大部分時間裡都不會遇到。

那麼面對這些問題，科學家們又是怎麼應對的呢？在業界，ARM率先提出了異構系統架構（big.LITTLE 以及前段時間剛發佈的DynamlQ），在芯片裡同時放入大核（高頻）與小核（低頻）。核的利用根據所運行的程由操作系統決定，從而達到儘量減小功耗目的。在學術界，洛夫蘭道爾（Rolf Landauer) 在1961年的論文中提出這樣一個概念[5]。因為擦掉一個比特的信息用於重寫至少需要消耗kTln2（k是波爾茲曼常數，T是溫度）的能量，如果我們能建立一個計算模型，將每個輸入產生的輸出信號的能量保存起來，為新的信號輸入提供能量，那我們是否能創造出一個零熱量產生的計算方式。這種計算模型被稱之為可逆計算。

蘭道爾的想法的前半部分（即擦掉一個比特的信息用於重寫至少需要消耗kTln2的能量）在2012年在實驗中得到了證實之後[6]，可逆計算在學術界再次引起漣漪。雖然零熱量產生的計算方式在海森堡不確定性原理的限制下被證明為不可能[7]，科學家利用超導體材料將之前提到的擦掉1比特信息所需要的能量減少到了kTln2以下[8]。同時，科學家們也開始通過量子電路的設計來模擬可逆計算的計算模型，從而達到更小的計算功耗[9]。雖然這些研究還處於開始階段，離實際應用還需要很長一段時間，但是眾多科學家們對突破功耗極限的努力依然能讓我們看到芯片發展的光明前途。

下期預告：為什麼說多核芯片是人們在還沒有準備好的情況下的一次摸著石頭過河？系統並行化的極限在哪裡？阿姆達爾定律又是什麼呢？下期我們將從時空概念的角度繼續探討計算機的極限。

參考文獻：

[1]. Dennard, Robert H.; Gaensslen, Fritz; Yu, Hwa-Nien; Rideout, Leo; Bassous, Ernest; LeBlanc, Andre (October 1974). "Design of ion-implanted MOSFET's with very small physical dimensions", IEEE Journal of Solid State Circuits.

[2]. H. Esmaeilzadeh et. al, “Dark Silicon and the End of Multicore Scaling”, in Porc of ISCA 2011.

[3]. I.L. Markov, “Limits on fundamental limits to computation”, Nature, vol. 512, pp. 147- 154.

[4]. Z. Yeraswork, “3D stacks and security key for IBM in server market”, EE Times, 2013.

[5]. R. Landauer, “Irreversibility and heat generation in the computing process”, IBM journal of research and development, pp. 183 – 191, 1961.

[6]. A. Berut et. al, “ Experimental verification of Landauer’s principle linking information and thermodynamics”, Nature, vol. 483, 187-189, 2012.

[7]. Y. Aharonov and D. Bohm, “Time in the quantum theory and the uncertainty relation for time and energy”, Physics, vol.122, 1649-1658, 1966.

[8]. J. Ren and V.K. Semenov, “Progress with physically and logically reversible superconducting digital circuits”, IEEE Trans. Appl. Supercond. 21, pp. 780 – 786, 2011.

[9]. C. Monroe et. al, “Large scale modular quantum computer architecture with atomic memory and photonic interconnects”, Physics, Rev.A89, 022317, 2014.

歡迎關注微信公眾號“原理”（ID：principia1687）查看所有往期文章。

近20年芯片速度幾乎沒有提升！芯片商只顧著造四核、八核芯片去了！

相關推薦