人工智能芯片：挑戰和機遇

人工智能智能家居恩智浦半導體物聯網智能手機英偉達技術英特爾 GPU 機器人中央處理器硬件簡·考爾無人機 Google 萬物雲聯網 2019-04-03

人工智能（AI）的爆炸性應用正在開啟半導體設備的新時代，這將帶來許多新的機遇，但也帶來許多挑戰。各個公司正在努力爭取使用各種芯片架構作為首選武器，以獲取人工智能能力。

具有端到端數據處理能力的公司

隨著機器學習應用開始出現在端點設備和物聯網的網絡邊緣設備中，使AI（人工智能）成為可能的加速器可能看起來更像是FPGA和SoC模塊，而不是來自英特爾或Nvidia的當前數據中心綁定芯片組件。

人工智能和機器學習需要功能強大的芯片來計算大數據集（訓練）的答案（推理）。大多數AI（人工智能）芯片 - 包括培訓和推理 - 都是為數據中心開發的。然而，這種趨勢很快就會發生變化。該處理的很大一部分將發生在邊緣，網絡邊緣中或附近的傳感器和傳感器陣列。

關鍵字數據處理流程

幾乎可以肯定的是，訓練將留在雲端，因為大量資源的最有效交付來自Nvidia GPU，後者佔據了這一部分的市場。雖然數據中心可能容納訓練部分 - 其龐大的數據集 - 但推斷可能最終會在邊緣。市場預測似乎在這一點上達成一致。

根據Tractica的研究主管Aditya Kaul以及其邊緣設備AI報告的作者：負責推理的硬件市場是新的，但變化很快。 “數據中心有一些機會，並將繼續存在。他們[基於雲的數據中心AI（人工智能）芯片市場]將繼續增長。但它處於邊緣，在推理中，事情變得有趣，“考爾說。他說，至少有70家專業人工智能公司正在研究某種與芯片相關的人工智能技術。

“在邊緣，智能手機，機器人，無人機，相機，安全攝像頭等所有設備都需要進行某種AI（人工智能）處理才能讓人感覺有趣，”考爾說。

市場領域深度學習芯片組的收入。來源：Tractica。

到2025年，基於雲的AI芯片組將獲得146億美元的收入，而基於邊緣的AI芯片組將帶來516億美元的收入 - 比數據中心大3.5倍，主要由手機，智能揚聲器，無人機，AR / VR耳機和其他都需要AI處理的設備組成。

雖然Nvidia和英特爾現在可能主導基於數據中心的機器學習應用市場，誰將擁有遠離數據中心的邊緣計算AI市場？那些芯片會是什麼樣子呢？

AI邊緣芯片需要做什麼

Semico Research的ASIC和SoC分析師Rich Wawrzyniak表示，邊緣計算，物聯網和消費者端點設備將需要在功耗，價格和芯片尺寸上以相對較低的成本進行高性能推理處理。這很困難，特別是因為邊緣設備要處理的大多數數據將是大塊的視頻或音頻數據。

“有很多數據，但如果你有監控攝像頭，它必須能夠實時識別壞人，不用將圖片發送到雲端，等待看是否有人能認出他，”Wawrzyniak說。

將邊緣設備添加ML級智能的一些願望來自於需要將這些設備上的數據保密，或者降低將其發送到雲的成本。然而，大多數需求來自於希望設備位於邊緣計算設施或客戶手中的用戶，而不是簡單地收集數據並定期將其發送到雲端，以便他們可以直接與公司自己的數據或其他客戶和路人進行實時交互。

人工智能數據收集和訓練管道

恩智浦半導體人工智能技術負責人Markus Levy表示，“客戶意識到他們不希望將大量處理工作轉移到雲端，因此他們認為邊緣是他們真正的目標。” “現在你可以在邊緣做AI，你可以將物聯網變成具有真正能力的東西。我們看到消費者物聯網和工業物聯網之間的增長速度非常快，除嵌入式外這些是我們最大的增長領域。“

據IDC分析師Shane Rau稱，IDC今年接受調查的商業技術客戶稱，他們肯定將機器學習轉移到邊緣設備上，主要用於汽車，智能家居，視頻監控攝像頭和智能手機，其客戶調查將這四種設備命名為ML的候選應用。

AI邊緣的架構趨勢

邊緣計算的要求範圍可能包括數十億的工業和消費設備，因此任何單一架構都不可能滿足所有這些要求。

可以在微控制器和相對低端的芯片上運行推理模型，但是大多數機器學習功能需要從基於FPGA，ASIC和其他SoC配置的一長串可選CPU插件中獲得提升。恩智浦的Levy表示，除了GPU，CPU以及偶爾由Google的張量處理單元這樣的特殊用途ASICS組合之外，大多數幫助都以加速器的形式出現。這些FPGA，SoC，ASIC和其他專用芯片旨在幫助資源受限的基於x86的設備通過一個接一個的分析標準處理大量圖像或音頻數據，以便應用程序可以正確計算每個加權值。

英特爾和Nvidia已經向邊緣AI市場發起衝擊。 Kaul說，像Nvidia的Jetson這樣的功能，一個7.5W功率預算的GPU模塊平臺，是Nvidia更典型的70W的一小部分，但對於不超過5W的邊緣應用來說這個功率仍太高了。

“有很多知識產權公司正在為神經網絡加速發展，因此有足夠的選擇使加速器開始成為邊緣設備推理的必要條件，”Levy說。

按類別劃分的AI邊緣設備的出貨量。來源：Tractica

但是，為潛在的數十億設備增加ML加速和支持將需要更多的可定製性，更低的成本和規格，更專門針對資源受限設備上的ML應用的需求而定製 - 這意味著如果它能夠成功，整個市場將需要更好的處理器。

神經推理需要數萬億次乘法累加步驟，因為模型從公式矩陣的一層中提取數據，儘管每一層可能需要不同的數據大小，並且這些設備中的一些可能在輸入設置為8位整數時運行得更快而不是16位整數。

“為了在數據中心獲得良好的吞吐量，大多數架構依賴於必須使用相同權重集來批次創建的數十或數百個任務，”Flex Logix的聯合創始人兼首席執行官Geoff Tate表示。 “如果您有28張圖像，則加載圖像，加載第一階段的權重，對第一階段進行數學運算，保存結果，然後加載第二階段的權重。通過在每一層上完成所有28個批次，如果您一次只做一個，那麼您可以將重量加載時間減少到1/28。如果加載和管理權重是你不擅長的，你可以通過批處理來解決它。這就是為什麼你會看到基準測試顯示批次28以低於批次1的運行效率。如果加載速度很慢，則難以擴展。但這正是您必須在數據中心外的任何地方進行的。如果您有監控攝像頭，則必須在圖像進入時對其進行處理，以使批量大小始終等於1.如果您正在測量性能，則批量大小始終等於數據中心外的1。

智能邊緣計算

Flex Logix正在開發的神經網絡引擎避免了批處理問題。 “因為我們如此快速地加載重量，所以我們不需要進行配料，所以我們的性能在批次1和28時是相同的，這在邊緣應用中非常重要，”Tate說。

推理硬件的兩個新的努力

Xilinx嘗試利用其在FPGA和系統級設計方面的經驗，採用新的產品線和路線圖，旨在儘可能多地處理邊緣/設備市場的各個部分。

該公司在去年春天討論了這個想法，但僅在10月正式宣佈，描述了一個“利用CPU，GPU和FPGA加速任何應用程序的自適應計算加速平臺”。

Xilinx演示文稿描述了廣泛的產品線，用例列表以及有關其AI引擎核心的詳細信息，其目標是提供比傳統方法高三到八倍的單位硅芯片面積性能，並提供高性能DSP功能。

人工智能支持的IoT架構

與此同時，Flex Logix創建了一個使用低DRAM帶寬的可重構神經加速器。硅片面積和功率的目標規格將在明年上半年完成，並在下半年發佈。推理引擎將充當CPU，而不僅僅是一個更大，更漂亮的加速器。它提供了一種模塊化，可擴展的架構，旨在通過減少移動數據的需要並通過改進數據和矩陣計算負載的方式來減少所需的時間和能量成本瓶頸。

該芯片專用於DRAM，就好像它專用於單個處理器塊而不是將其作為一個大存儲池來管理。 DRAM不會同時向芯片的多個部分提供數據。 “處理DRAM非常昂貴，因為一個大的內存池流入一個處理器塊是典型的Van Neumann架構，但它不會成為神經網絡的成功架構，”Tate說。

早期時代

Wawrzyniak說，Xilinx，Flex Logix和其他公司湧入仍處於發展中的邊緣推斷市場，顯示出對市場和SoC和FPGA製造商提供良好技術以應對它們的能力的廣泛信心，Wawrzyniak說，但它是他說，不能保證他們能夠克服安全，隱私，現狀慣性和其他無形資產等問題。同樣，ML加速FPGA，ASIC和SoC的市場仍處於起步階段。

根據林利集團的Linley Gwennap的說法，在新市場發展時看到很多新的參與者和新的方法是很正常的。 FPGA和ASIC供應商正處於混合狀態，因為這些技術使公司能夠知道它正在做什麼來快速生產合理的產品。他說，標準最終將在一到兩年內恢復，這將穩定所涉及的參與者的數量和專業，並確保與其他市場之間的互操作性。

（完）

人工智能芯片：挑戰和機遇

AI邊緣芯片需要做什麼

AI邊緣的架構趨勢

推理硬件的兩個新的努力

早期時代

相關推薦