國產最強AI加速卡發布，大模型系統運行不在話下

2024-03-11 來源：賢集網

6377

大模型端側部署正加速！AI PC等新物種熱度暴增，企業對于AI加速卡的關注度也水漲船高。

但是AI PC等端側設備中的AI加速卡如何做到可用、好用是一大難題，其需要兼顧體積小、性能強、功耗低才能使得端側設備承載大模型能力成為現實。

近日，清華系AI芯片創企芯動力科技面向大模型推出了一款新產品——AzureBlade L系列M.2加速卡。M.2加速卡是目前國內最強的高性能體積小的加速卡，其強大的性能使其能夠順利運行大模型系統。

M.2加速卡的大小僅為80mm（長）x22mm（寬），并已經實現與Llama 2、Stable Diffusion模型的適配。具備體積小、性能強，且有通用接口的M.2加速卡成為助推大模型在PC等端側設備上部署的加速器。

體積小、性能強、功耗低，端側跑大模型三大關鍵

AI PC已經成為大模型落地端側設備的一個重要載體。

從去年年底至今，AI PC的熱潮正在涌起。前有英特爾啟動AI PC加速計劃、高通推出專為AI研發的PC芯片驍龍X Rlite、上周英偉達發布全新一代RTX 500和1000顯卡，支持筆記本電腦等端側設備上運行生成式AI應用……

根據市研機構IDC發布的最新報告，預估AI PC出貨量2024年逼近5000萬臺，到2027年將增長到1.67億臺，占全球PC總出貨量的60%左右。

AI PC這一新物種正在加速大模型的規模化落地。與此同時，擁有龐大參數規模的大模型也對端側設備可承載的算力提出了更高的需求。

在端側往往只有一個獨立設備。以PC為例，作為人們日常生活、工作的常用設備，其體積并不大且足夠輕便，因此需要AI加速卡足夠小且不會因體積犧牲性能上的優勢。以M.2加速卡的形式進入AI PC的市場就是很有優勢的產品形態。

可以看到，當下大模型的發展路線不再唯參數論，越來越多參數規模小性能強大的模型出現，如開源的Llama 2模型系列參數在70億到700億不等，為大模型在端側的落地提供了機會。

即便如此，大模型想要成功部署在端側對于芯片玩家而言仍然具有挑戰，需要其突破端側設備有限的計算和存儲能力，因此芯片玩家亟需找到芯片體積小與性能強大的平衡點。

李原談道，端側設備還有一大特點是，GPU是其最主要的元件。這背后的風險在于，企業全部圍繞GPU來做設備，就會造成一旦產品的開發周期變長，其未來的開發路線會受到一定限制。由于邊緣設備上接口的可選擇性不多，很多設備需要針對不同的芯片進行接口定制，企業就需要承擔接口受限的風險。

這些新的變化及需求為這家GPGPU創企帶來了新的機遇。

GPGPU：提高模型訓練效率的AI產業發展利器

算力的迅猛發展，離不開芯片、數據中心和云計算等產業鏈的完善，特別是GPU，作為三大算力芯片之一，已經是國家、產業高度重視的戰略高地。其中，GPGPU架構憑借極強的通用計算能力，正在成為AI算力時代的最優解。

GPU的技術路線有多種，比如GPGPU、FPGA、ASIC等等，其中GPGPU 是人工智能領域最主要的協處理器解決方案，占據人工智能90%以上的市場份額。

GPGPU比其他路線具有更好的通用性，因此應用領域非常廣泛，在科學計算、數據分析、機器學習、深度學習、密碼學、圖像處理等各種領域均起到重要作用。

通過利用GPU的并行處理能力，GPGPU可以加速這些領域中的計算任務，提高計算效率，縮短計算時間；尤其是在云端運行模型訓練算法時，使用GPGPU可以縮短海量訓練數據的訓練時長，減少能源消耗，從而進一步降低人工智能的應用成本，這對人工智能領域的發展是非常關鍵的。

當下，GPGPU芯片在火熱的AI市場中已經供不應求。未來幾年內，中國人工智能芯片市場規模將保持年均40%至50%的增長速度，GPGPU通用性好和軟件生態系統完善的優勢會進一步展現出來，擁有更加廣闊的市場前景。

技術著眼深度，走出自己的道路

我國芯片產業較其他國家起步較晚，在李原看來，國產替代的時代已經過去了。

“國外企業已經形成了技術壁壘，我們不應該去做一個純國產替代的產品，尤其在芯片這個競爭激烈的行業，很多龍頭企業沉淀多年，靠追趕是很難的。”李原表示，“我們要在某一個方向上進行突破，走出一條自己的路子。”

就芯動力而言，目前雖然廣度不足以媲美行業龍頭，但在深度方面的積累，已經超過當前技術領先的公司。李原舉例，芯動力產品從效率方面來說，比當前任何一款類似的芯片效率都要高，“我們的14納米的芯片甚至比某國際知名品牌的7納米A100的芯片效率更高，這讓我們在某些產品上具有了絕對競爭優勢”。

“作為一家技術型初創公司，技術和創新是為商業服務的。”李原認為，“客戶的需求我們要仔細分析，找出真正的痛點并加以解決。”當前，芯動力的產品已經在邊緣計算領域、銀行、通訊領域、醫療超聲波方向、AI方向的高性能計算等領域實現應用。

當前，芯動力研發團隊核心成員有平均年限超15年的資深半導體從業背景，且均來自英特爾、高通、德州儀器等知名半導體企業，研發人員占比超過80%，每年的研發投入超過90%。

基于深厚的技術積累和完善的人才儲備，芯動力核心成員研究并提出了在并行計算的領域里的可重構并行處理器架構（Reconfigurable Parallel Processor）。該架構不去涉及通用計算領域，而是專注于并行計算領域。可以用基于CUDA的高級語言進行原代碼編程，利用自有的指令集作為底層匯編，使得在高性能計算領域內最廣泛使用的語言進行支持。

具體來看，RPP創新架構主要具備三大優勢：一是更強的處理能力。RPP設計的計算中心用芯片可以達到目前最先進處理器10倍的處理能力。英偉達最新推出的GPGPU，GP100是目前芯片面積最大，計算能力最強的芯片。它已達到了600平方毫米芯片面積，300W功率。RPP的設計目標是10倍于GP100的計算能力，降低服務器的成本且提高服務器性能。

二是更短的處理遲延。RPP的計算方法和GPGPU的計算架構非常不同，這樣的架構使得計算的處理時延低，并使得計算平臺能夠應用在實時的處理計算之中。這在要求低遲延的系統，比如通訊系統中可以得到良好的應用。

三是低功耗。在許多系統之中，低功耗成為了主要的性能指標，比如說手機，平板電腦等，電池的壽命往往非常有限，低功耗而高性能的計算，成為了必需。而在計算中心之中，服務器的功耗是散熱的主要部分。1/10的功耗，將意味著1/10的電費。這意味著大大降低運營成本。

總的來說，這款芯片可以幫助客戶加快Time to Market的步伐，降低他們的開發周期和產品成本，實現低成本及快速的遷移。

據悉，目前以RPP技術研發的第一代RPP-R8芯片已經成功流片，基于全新自研架構，RPP-R8是一款為并行計算設計的高端通用異構芯片。

登入后，方可留言>>

行業動態

AR眼鏡研發商影目科技完成超1.5億元B2輪融資

SK Keyfoundry攜手LB Semicon開發關鍵8英寸半導體封裝技術

耗資140億韓元，Justem領銜開發HBM混合鍵合設備

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產

亚洲色大成网站www-少妇性bbb搡bbb爽爽爽欧美-久久久久爽爽爽爽一区老女人-人妻丰满熟妇av无码区-欧性猛交ⅹxxx乱大交

國產最強AI加速卡發布，大模型系統運行不在話下