挑戰英偉達，難度有多大？誰能成為下一個接棒者？

2024-04-16 來源：賢集網

2986

隨著圍繞人工智能的押注越來越火熱，一些芯片公司也被華爾街“挑選”了出來，認為它們可能從這一波熱潮中受益，但分析師們普遍認為，這些公司所獲得的收益不會來自于英偉達現在所擁有的份額。

英偉達GPU主導著人工智能芯片市場，這些實力玩家希望改變這一點。

如果說有哪只股票能從人工智能(AI)中獲利，那一定是英偉達(Nvidia)。該公司率先開發了圖形處理單元(GPU)，可以在視頻游戲中呈現逼真的圖像。讓這些芯片如此高效的是并行處理，它將計算復雜的工作分解成更小、更易于管理的塊。英偉達能夠調整這項技術來處理人工智能的嚴格要求，使其成為人工智能芯片領域最成功的公司。

然而，隨著對人工智能的需求加速增長，許多技術中堅人士一直在幕后瘋狂地研發可行的替代方案，以取代英偉達業界領先的處理器。

一、近期競爭對手的成果

1. 英特爾

早些時候，英特爾(Intel)發布了名為Gaudi 3的最新人工智能芯片，直接挑戰了英偉達在GPU領域的主導地位。該公司聲稱，高迪訓練人工智能模型的速度幾乎是英偉達H100旗艦數據中心處理器的兩倍，在推理方面快50%，即運行已經訓練過的人工智能模型。該公司還表示，高迪的性能比H100高40%，“成本只是H100的一小部分”。

值得注意的是，英偉達最近推出了H100的后繼產品Blackwell B200 AI GPU，將于今年晚些時候開始發貨。雖然沒有將高迪與B200進行比較，但英特爾公司表示，“我們確信高迪2將具有很強的競爭力”，能夠與英偉達的最新處理器競爭，并稱高迪是“一款強大的產品”。

英特爾可能并不打算超越英偉達最新的人工智能芯片，而是希望為企業提供一種更便宜的替代產品。同樣值得注意的是，英偉達的H100和H200芯片一直供不應求，這給人工智能的應用帶來了發展瓶頸。英特爾的最新產品可能有助于緩解積壓。

2. Meta平臺

Meta平臺也不甘示弱，宣布推出Meta訓練和推理加速器(MTIA) v2，這是一款在公司數據中心運行的定制人工智能芯片。Meta宣布其最新版本的MTIA“將計算和內存帶寬提高了一倍以上”。初步結果顯示，新處理器的性能是第一個版本的三倍。

Meta指出，它正試圖通過其最新芯片提供“計算、內存帶寬和內存容量的適當平衡”。該公司沒有將這些芯片用于人工智能處理;至少，目前還沒有。Meta正在使用這些處理器來提高其排名和推薦系統的速度和效率，這些系統用于在其社交媒體網站上顯示相關內容和目標廣告。

Meta是英偉達最大的客戶之一，因此，如果它在人工智能芯片方面取得成功，該公司可能會減少對英偉達人工智能處理器的依賴。

3. Alphabet

在本周的Google Cloud Next發布會上，Alphabet宣布推出最新版本的以人工智能為中心的處理器——云張量處理單元(Cloud Tensor Processing Unit, TPU) v5p。該公司表示，其Cloud TPU可以訓練支撐人工智能系統的大型語言模型(llm)，速度比版本4快三倍。

與一般情況一樣，谷歌的tpu不會出售，但將于今年晚些時候在谷歌云上提供。

然而，在一篇博客文章中，谷歌指出，它正在擴展其英偉達GPU的能力，增加了由英偉達H100 GPU驅動的A3超級計算機。谷歌云的客戶還可以使用采用英偉達Blackwell B200和Grace Blackwell GB200 gpu的虛擬機。

谷歌還發布了與Arm Holdings合作設計的第一款數據中心中央處理器Axion。谷歌表示，Axion的速度比目前領先的CPU快30%，性能比英特爾和AMD的x86芯片高50%，效率比后者高62%。

二、Groq號稱比英偉達的GPU更快

Groq收購了一家人工智能解決方案公司Definitive Intelligence。這是 Groq 在 2022 年收購高性能計算和人工智能基礎設施解決方案公司 Maxeler Technologies 后的第二次收購。Groq來勢很兇。

我們處于一個快節奏的世界中，人們習慣于快速獲取信息和滿足需求。研究表明，當網站頁面延遲300 - 500毫秒(ms)時，用戶粘性會下降20%左右。這在AI的時代下更為明顯。速度是大多數人工智能應用程序的首要任務。類似ChatGPT這樣的大語言模型（LLM）和其他生成式人工智能應用具有改變市場和解決重大挑戰的潛力，但前提是它們足夠快，還要有質量，也就是結果要準確。

如今行業不少人的共識認為，英偉達的成功不僅僅歸功于其GPU硬件，還在于其CUDA軟件生態系統。CUDA也被業界稱為是其“護城河”。那么，其他AI芯片玩家該如何與英偉達競爭？

誠然，CUDA為GPU開發者提供了一個高效的編程框架，方便編程人員快速實現各種算子。不過，僅靠編程框架并不能實現高性能的算子處理。因此，英偉達有大量的軟件開發團隊和算子優化團隊，通過仔細優化底層代碼并提供相應的計算庫，提升深度學習等應用計算效率。由于CUDA有較好的生態，這部分開源社區也有相當大的貢獻。

然而，CUDA框架和GPU硬件架構的緊密耦合同時也帶來了挑戰，比如在GPU之間的數據交互通常需要通過全局內存（Global Memory），這可能導致大量的內存訪問，從而影響性能。如果需要減少這類訪存，需要利用Kernel的Fusion等技術。實際上，英偉達在H100里增加SM-SM的片上傳輸通路來實現SM間數據的復用、減少訪存數量，但是這通常需要程序員手工完成，同樣增加了性能優化的難度。另外，GPU的整個軟件棧最早并不是專為深度學習設計的，它在提供通用性的同時，也引入了不小的開銷，這在學術界也有不少相關的研究。

因此，這就給AI芯片的新挑戰者如Groq，這提供了機會。例如Groq就是挖掘深度學習應用處理過程中的“確定性”來減少硬件開銷、處理延時等。這也是Groq芯片的特色之處。

實現這么一款芯片的挑戰是多方面的。其中關鍵之一是如何實現軟硬件方面協同設計與優化，極大的挖掘“確定性”實現系統層面的Strong Scaling 。為了達到這個目標，Groq設計了基于“確定性調度”的數據流架構，硬件上為了消除“不確定性” 在計算、訪存和互聯架構上都進行了定制，并且把一些硬件上不好處理的問題通過特定的接口暴露給軟件解決。軟件上需要利用硬件的特性，結合上層應用做優化，還需要考慮易用性、兼容性和可擴展性等，這些需求都對配套工具鏈和系統層面提出很多新的挑戰。

大模型確實給傳統的芯片架構帶來了極大的挑戰，迫使芯片從業者發揮主觀能動性，通過“另辟蹊徑”的方式來尋求突破。值得關注的是，國內也已經有一批架構創新型的芯片企業，陸續推出了存算一體或近存計算的產品，例如、知存科技、后摩智能、靈汐科技等。

考慮到芯片的研發周期通常長達數年，在嘗試新技術的時候需要對未來的應用（如LLM技術）的發展趨勢有一個合理的預判。分析好應用的發展趨勢，通過軟硬件的設計預留一定的靈活性和通用性，更能夠保證技術長期適用性。

登入后，方可留言>>

行業動態

AR眼鏡研發商影目科技完成超1.5億元B2輪融資

SK Keyfoundry攜手LB Semicon開發關鍵8英寸半導體封裝技術

耗資140億韓元，Justem領銜開發HBM混合鍵合設備

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產

亚洲色大成网站www-少妇性bbb搡bbb爽爽爽欧美-久久久久爽爽爽爽一区老女人-人妻丰满熟妇av无码区-欧性猛交ⅹxxx乱大交

挑戰英偉達，難度有多大？誰能成為下一個接棒者？