'安利一波：史上最大芯片'

人工智能 GPU 技術電腦設計三星集團硬件英偉達斯坦福大學算法英特爾康爾信電力系統 2019-08-21

今天，一顆超大芯片引起了半導體界的轟動。據悉，美國AI芯片初創公司Cerebras Systems 推出了有史以來最大的芯片，這款名為“The Cerebras Wafer Scale Engine”的芯片（下文稱 WSE）有1.2萬億個晶體管。

在芯片歷史上，1971年，英特爾的第一個4004處理器只有2300個晶體管，而最近的一個高級微設備處理器也只有320億個晶體管。三星也曾製造過一款擁有2萬億個晶體管的閃存芯片（eUFS 芯片），但是不適用於AI計算。

如何製造

大多數芯片實際上是在12英寸硅晶元片上創建的芯片集合，每塊硅晶圓片可以集成成百上千顆芯片。但Cerebras Systems芯片是在單個晶圓上互連的單芯片。這些互連設計使其全部保持高速運行，因此萬億個晶體管全部一起工作。

通過這種方式，Cerebras Wafer Scale Engine是有史以來最大的處理器，它專門設計用於處理人工智能應用。該公司本週正在加利福尼亞州帕洛阿爾託的斯坦福大學舉行的Hot Chips會議上討論這項設計。

三星實際上已經制造了一個閃存芯片，即eUFS，擁有2萬億個晶體管。但Cerebras芯片專為加工而設計，擁有400,000個核心，42,225平方毫米。它比最大的Nvidia圖形處理單元大 56.7倍，該單元的尺寸為815平方毫米和211億個晶體管。

WSE還包含3,000倍的高速片上存儲器，並且具有10,000倍的存儲器帶寬。

創紀錄的最大芯片：比Tesla V100大56倍

數據顯示，這個42,225平方毫米的芯片，有著400,000個核，這些核心通過一個細粒度、全硬件的片內網狀連接的通信網絡連接在一起，提供每秒100 PB的總帶寬。更多的核心、更多的本地內存和低延遲的高帶寬結構，創建了加速人工智能工作的最佳架構。WSE比最大的GPU還要大56.7倍，擁有18GB的on-chip sram。

事實上，現在的大多數芯片是在12英寸硅片基礎上製作的多芯片集成。但 Cerebras Systems 公司的這款芯片是晶體管在單晶硅圓片上製作互相連接的獨立芯片。其互相連接的設計，可以讓所有的晶體管都能如一個整體一般高速運轉。

通俗地解釋，這款產品完全就是計算機中的學霸，比計算能力和存儲帶寬，人家的級別還是新詞彙—拍字節（Petabytes，1PB=1024TB=10^6GB=2^50bit），速度大約是如今英偉達公司最大的圖形處理器（GPU，浮點運算能力很強，常用於 AI 相關研究）的 3000 倍，存儲帶寬則是1000倍。

如何製造

WSE還包含3,000倍的高速片上存儲器，並且具有10,000倍的存儲器帶寬。

創紀錄的最大芯片：比Tesla V100大56倍

400000個AI優化的內核

WSE包含40萬個AI優化的計算內核。這種計算內核被稱為稀疏線性代數核,具有靈活性、可編程性，並針對支持所有神經網絡計算的稀疏線性代數進行了優化。SLAC的可編程性保證了內核能夠在不斷變化的機器學習領域運行所有的神經網絡算法。

由於稀疏線性代數內核是為神經網絡計算進行優化的，因此它們可實現業界最佳利用率——通常是GPU的3倍或4倍。此外，WSE核心還包括Cerebras發明的稀疏捕獲技術，以加速在稀疏工作負載(包含0的工作負載)上的計算性能，比如深度學習。

零在深度學習計算中很普遍。通常，要相乘的向量和矩陣中的大多數元素都是0。然而，乘以0是浪費硅，功率和時間的行為，因為沒有新的信息。

因為GPU和TPU是密集的執行引擎——引擎的設計永遠不會遇到0——所以它們即使在0時也會乘以每一個元素。當50-98%的數據為零時，如深度學習中經常出現的情況一樣，大多數乘法都被浪費了。由於Cerebras的稀疏線性代數核心永遠不會乘以零，所有的零數據都被過濾掉，可以在硬件中跳過，從而可以在其位置上完成有用的工作。

如何製造

WSE還包含3,000倍的高速片上存儲器，並且具有10,000倍的存儲器帶寬。

創紀錄的最大芯片：比Tesla V100大56倍

400000個AI優化的內核

零在深度學習計算中很普遍。通常，要相乘的向量和矩陣中的大多數元素都是0。然而，乘以0是浪費硅，功率和時間的行為，因為沒有新的信息。

比GPU大3000倍的片上內存

內存是每一種計算機體系結構的關鍵組成部分。靠近計算的內存意味著更快的計算、更低的延遲和更好的數據移動效率。高性能的深度學習需要大量的計算和頻繁的數據訪問。這就要求計算核心和內存之間要非常接近，而在GPU中卻不是這樣，GPU中絕大多數內存都很慢，而且離計算核心很遠。

Cerebras Wafer Scale Engine包含了比迄今為止任何芯片都要多的內核和本地內存，並且在一個時鐘週期內擁有18 GB的片上內存。WSE上的核心本地內存的集合提供了每秒9 PB的內存帶寬——比最好的GPU大3000倍的片上內存和10000倍的內存帶寬。

如何製造

WSE還包含3,000倍的高速片上存儲器，並且具有10,000倍的存儲器帶寬。

創紀錄的最大芯片：比Tesla V100大56倍

400000個AI優化的內核

零在深度學習計算中很普遍。通常，要相乘的向量和矩陣中的大多數元素都是0。然而，乘以0是浪費硅，功率和時間的行為，因為沒有新的信息。

比GPU大3000倍的片上內存

'安利一波：史上最大芯片'

相關推薦