ChatGPT正在榨干算力，如何打贏這場算力攻堅戰(zhàn)？

2023-03-09 16:02 來源：互聯(lián)網(wǎng) 我來投稿撤稿糾錯

史上用戶增速最快消費級應(yīng)用ChatGPT，自去年11月底發(fā)布以來，讓全球為其狂歡，各方勢力仍持續(xù)為此“上火”：用戶急著試探ChatGPT是否真的有那么聰明 ，每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT，并展現(xiàn)自己的“調(diào)教”成果；

（ChatGPT每日點擊訪問量統(tǒng)計圖源：國盛證券研究所）

國內(nèi)互聯(lián)網(wǎng)大廠們 基于要“活下去”的心愿和講更動聽的AI故事，急著與ChatGPT扯上關(guān)系 ：一時間百度、騰訊、阿里等紛紛拿出相關(guān)技術(shù)布局以及底層設(shè)施儲備，為中國的ChatGPT奮力一戰(zhàn)；

近3個月過去，ChatGPT熱度絲毫未減，有關(guān)部門也在努力：

2月24日，東數(shù)西算一體化算力服務(wù)平臺在寧夏銀川正式上線發(fā)布。據(jù)悉，東數(shù)西算一體化算力服務(wù)平臺將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運算能力，以支撐中國人工智能運算平臺急需的大算力服務(wù)。

目前，該平臺已吸引曙光、中國電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè)，以及國家信息中心、北京大數(shù)據(jù)研究院等中國主要大數(shù)據(jù)機構(gòu)入駐。

各方勢力蜂擁而至，足以見得，目前的算力填補不了ChatGPT們的需求，眾志成城，才能打贏ChatGPT算力攻堅戰(zhàn)。

本文試圖探究，ChatGPT到底需要多大的算力？升級算力的路子是什么？

ChatGPT，企圖榨干算力

通用AI時代來臨，人類對于算力的需求正逐漸失控。

伴隨著摩爾定律失效，大模型時代來臨，算力不再“淡定”，每5-6個月就要翻倍，以困獸沖破牢籠之勢飛速增長：

（模型發(fā)布時間及算力變化圖源：浙商證券）

2018年，谷歌帶著3億參數(shù)BERT模型，闖進大眾視野，開啟大規(guī)模預(yù)訓(xùn)練模型時代；在這之后，OpenAI、英偉達、微軟先后推出15億參數(shù)的GPT-2、83億參數(shù)的Megatron-LM、170億參數(shù)的圖靈Turing-NLG，各個大廠暗自較勁，參數(shù)規(guī)模從十億級別競爭到了百億級別。

2020年6月，OpenAI又將算力“戰(zhàn)場”拔高了一個層級：推出1750億參數(shù)的GPT-3，把參數(shù)規(guī)模提高到千億級別。隨后一山更比一山高：微軟和英偉達在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型（MT-NLG）。

2021年，國內(nèi)迎來預(yù)訓(xùn)練大模型元年。在這一年里，華為、百度、阿里等中國企業(yè)開始發(fā)力：

華為云聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型，參數(shù)規(guī)模達2000億；

百度推出ERNIE 3.0 Titan模型，參數(shù)規(guī)模達2600億；

阿里達摩院的M6模型參數(shù)達到10萬億，又將大模型參數(shù)帶到新的高度 ……

在這之中表現(xiàn)最為亮眼的，莫過于從GPT-3迭代而來的ChatGPT，2022年底一出世就博得全球目光，無論是在模型預(yù)訓(xùn)練階段，還是模型被訪問階段， ChatGPT都對算力提出“史無前例”的要求。

在模型預(yù)訓(xùn)練階段， 從GPT-1到GPT-3，從GPT-3 Small到GPT-3 175B，對算力的需求呈指數(shù)型增長。

在大模型的框架下，每一代 GPT 模型的參數(shù)量均高速擴張，參數(shù)量從GPT-1的1.17億個，翻了1029倍至GPT-3 的1750 億個；

具體來看，在GPT-3歷代模型中，短短2年，參數(shù)量便從GPT-3 Small的1.25億個，翻了1399倍至GPT-3的1750億個，未來GPT-4還要翻倍：根據(jù) Altman 的介紹，預(yù)計GPT-4的參數(shù)將會達到2800億個。

與此同時，在模型被訪問階段，ChatGPT對算力同樣有著“狂熱”需求：

據(jù)Similarweb數(shù)據(jù)，ChatGPT官網(wǎng)在2023年1月27日-2月3日一周內(nèi)吸引的每日訪客數(shù)量高達2500萬。假設(shè)以目前的穩(wěn)定狀態(tài)，每日每用戶提問約10個問題，則每日約有2.5億次咨詢量。

如果想要“消化”掉這2.5億次咨詢量，根據(jù)國盛證券測算，需要大量的A100 GPU芯片“連夜趕工”：

假設(shè)每個問題平均30字，單個字在A100 GPU上約消耗350ms，則一天共需消耗729,167個A100 GPU運行小時，對應(yīng)每天需要729,167/24=30,382片 英偉達A100 GPU。

也就是說，目前每天2.5億次咨詢量，需要30,382片英偉達A100 GPU同時計算，才能把ChatGPT“喂飽”，以下是ChatGPT部分耗費（電費以0.08美元/kwh計算）：

而以上圖表所顯示的，僅僅是2.5億咨詢量需求下，使用英偉達A100 GPU相關(guān)設(shè)備，ChatGPT所需要的算力成本。

其背后對能源的消耗，更是“觸目驚心”。

環(huán)球零碳研究中心曾粗略合計了ChatGPT全生命周期的碳足跡：自2022年11月30日運行以來，其制造設(shè)備的碳排放量超過了33.41噸，模型訓(xùn)練碳排放超過552噸，運行60天碳排放約為229.2噸。

也就是說上線兩個月的ChatGPT，全過程碳排放超過了814.61噸，而這，相當(dāng)于186個丹麥家庭每年消耗的能量。

現(xiàn)階段ChatGPT背后的大模型仍在迭代，每日訪問量仍在遞增，未來還會有更多的ChatGPT們涌現(xiàn)。彼時，算力以及其背后的功耗還能顧得過來嗎？

對此，蘇媽表示了擔(dān)憂：在ISSCC 2023上，蘇媽表示根據(jù)目前計算效率每兩年提升2.2倍的規(guī)律，預(yù)計到2035年，如果想要算力達到十萬億億級，則需要的功率可達500MW，相當(dāng)于半個核電站能產(chǎn)生的功率，“這是極為離譜、不切合實際的”。

（2010-2040功率發(fā)展情況圖源：2023 IEEE international Solid-State Circuits Conference）

為了達到這樣的效果，我們的計算效率起碼要每兩年提升2.2倍，才能匹配上2035年的算力需求。蘇媽坦言，盡管用上目前最先進的計算技術(shù)、最先進的芯片，也滿足不了ChatGPT們。

而當(dāng)ChatGPT吞噬完大量算力、能源，“吃飽喝足”之后，各國打的不再是算力之爭，而是“國運之爭”：一旦搭載ChatGPT的人形機器人能夠大批量地上崗時，吃人口紅利的國家不再有顯著的優(yōu)勢。

ChatGPT們，包括未來的人形機器人們， 正對算力、能源“虎視眈眈”，同時對人類的威脅也不容小覷：往小了看，影響到個人職業(yè)發(fā)展，往大了看，牽扯到國家競爭力。

存算一體承載和釋放ChatGPT

而一切的一切，都得從打好算力之爭開始。

傳統(tǒng)的AI1.0時代的代表企業(yè)，例如AMD已經(jīng)開始探尋新的出路：依靠系統(tǒng)級創(chuàng)新實現(xiàn)更大的突破。系統(tǒng)級創(chuàng)新，即從整體設(shè)計的上下游多個環(huán)節(jié)協(xié)同設(shè)計來完成性能的提升。

一個經(jīng)典案例是，在對模型算法層面使用創(chuàng)新數(shù)制（例如8位浮點數(shù)FP8）的同時，在電路層對算法層面進行優(yōu)化支持，最終實現(xiàn)計算層面數(shù)量級的效率提升：相比傳統(tǒng)的32位浮點數(shù)（FP32），進行系統(tǒng)級創(chuàng)新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計算單元的效率，無論如何也難以實現(xiàn)數(shù)量級的效率提升。

于是，為解決“如何用更少的電，輸出更高的算力”這一終極命題，業(yè)內(nèi)給出不少技術(shù)及方案：量子計算（量子芯片）、光機芯片、芯粒（Chiplet）、3D封裝、存算一體……。同時也有團隊將這些技術(shù)進行結(jié)合，以期達到系統(tǒng)級創(chuàng)新。

在這之中，現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內(nèi)普遍認為，能夠突破 AI 算力困境，進行架構(gòu)創(chuàng)新的兩條清晰路線。

浙商證券指出，面對未來潛在的算力指數(shù)增長，短期使用芯粒異構(gòu)技術(shù)加速各類應(yīng)用算法落地，長期來看，打造存算一體芯片，或?qū)⒊蔀槲磥硭懔ι壍臐撛诜绞健?/p>

（架構(gòu)創(chuàng)新路線圖源：浙商證券）

芯粒異構(gòu)技術(shù)成為“種子”選手的原因是，該技術(shù)能夠突破先進制程的封鎖，且大幅提升大型芯片的良率、降低設(shè)計成本、芯片制造成本。

而之所以說是短期，是因為該技術(shù)路徑需要犧牲一定的體積和功耗，導(dǎo)致其目前只能在基站、服務(wù)器、智能電車等領(lǐng)域廣泛使用。

為解決這一“小缺陷”，目前在學(xué)術(shù)界，已有團隊選擇將芯粒異構(gòu)技術(shù)與存算一體架構(gòu)相融合，以期達到1+1>2的效果：

在ISSCC 2022上，復(fù)旦大學(xué)芯片與系統(tǒng)前沿技術(shù)研究院劉明院士團隊提出多芯粒的存算一體集成 芯片——COMB-MCM。

據(jù)團隊表示，電路上COMB-MCM采用存算一體設(shè)計，能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下，該芯片具有精度無損且支持非結(jié)構(gòu)化稀疏的自適應(yīng)能效調(diào)節(jié)特點，也就補足了芯粒異構(gòu)技術(shù)的短板。

既是芯粒異構(gòu)技術(shù)的最佳拍檔之一，同時也是未來架構(gòu)創(chuàng)新路徑之一，存算一體為何能博得多方“歡心”？

這是因為存算一體成功打破了“三堵墻”：

在傳統(tǒng)馮·諾伊曼架構(gòu)之下，芯片的存儲、計算區(qū)域是分離的。計算時，數(shù)據(jù)需要在兩個區(qū)域之間來回搬運，而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長，數(shù)據(jù)已經(jīng)面臨“跑不過來”的境況，成為高效能計算性能和功耗的瓶頸，也就是業(yè)內(nèi)俗稱的“存儲墻”。

（存儲墻限制具體表現(xiàn) 圖源：浙商證券）

存儲墻相應(yīng)地也帶來了能耗墻、編譯墻（生態(tài)墻）的問題。例如編譯墻問題，是由于大量的數(shù)據(jù)搬運容易發(fā)生擁塞，編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化，只能手動、一個個或者一層層對程序進行優(yōu)化，耗費了大量時間。

這“三堵墻”會導(dǎo)致算力無謂浪費：據(jù)統(tǒng)計，在大算力的AI應(yīng)用中，數(shù)據(jù)搬運操作消耗90%的時間和功耗，數(shù)據(jù)搬運的功耗是運算的650倍。

而存算一體能夠?qū)⒋鎯陀嬎闳诤希瑥氐紫嗽L存延遲，并極大降低了功耗?；诖?，浙商證券報告指出，存算一體的優(yōu)勢包括但不限于： 具有更大算力（1000TOPS以上）、具有更高能效（超過10-100TOPS/W）、降本增效（可超過一個數(shù)量級）······

存算一體，正在沖破三堵墻“解救”ChatGPT，加速算力升級。

大算力芯片需扎好馬步

除了架構(gòu)創(chuàng)新，芯片本身的升級迭代也非常重要。作為基石的底層芯片，需要足夠“大”，AI大算力應(yīng)用才能高樓平地起。

（ChatGPT研究框架圖源：浙商證券）

那么AI大算力說的“大”到底是多大？

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語言模型為例，采用的是2020年最先進的英偉達A100 GPU，算力達到624 TOPS。2023年，隨著模型預(yù)訓(xùn)練階段模型迭代，又新增訪問階段井噴的需求，未來模型對于芯片算力的需求起碼要破千。

再例如自動駕駛領(lǐng)域，根據(jù)財通證券研究所表明，自動駕駛所需單個芯片的算力未來起碼1000+TOPS。

目前巨頭已開始卷上1000+TOPS的SoC，主要用于自動駕駛領(lǐng)域：在2021年4月，英偉達就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年，英偉達直接推出芯片Thor達到2000TOPS。

故，大算力背景下，大算力芯片起碼得是1000+TOPS選手。

而在符合大算力條件下，也需要考慮到“用料”的功耗、造價問題。

目前，在存算一體架構(gòu)優(yōu)勢下，億鑄科技為當(dāng)前的算力、能耗困局，給出一條解題思路：選擇有著面積更小、微縮性好等特性的RRAM實現(xiàn)“同等能耗，更大算力；同等算力，更低能耗 ”，為各大數(shù)據(jù)中心、自動駕駛等應(yīng)用領(lǐng)域“排憂解難”，在數(shù)字經(jīng)濟時代，實現(xiàn)綠色算力。

而在存算一體架構(gòu)下，傳統(tǒng)SRAM、閃存（Flash ) 均有著致命的缺陷，無法實現(xiàn)在大算力賽道的降本增效：

SRAM面積較大，占據(jù)了英偉達數(shù)據(jù)中心級GPU總邏輯面積的約50%。而一個A100 GPU的成本就在1萬美元以上，根據(jù)測算，成熟產(chǎn)品每GB SRAM內(nèi)存的成本將在100美元左右，最貴的存儲器當(dāng)屬SRAM。

除了成本難壓之外， SRAM也存在著不穩(wěn)定的問題。SRAM 的問題在于它的靜態(tài)電流大，當(dāng)大量的 SRAM 堆積在芯片上時，會產(chǎn)生一種被稱為 DI/DT 的工程性問題（也就是電流在短時間內(nèi)大量變化），應(yīng)用落地極具挑戰(zhàn)性。

基于這兩點考慮，SRAM 并不適合做大算力場景。據(jù)了解， 目前采用 SRAM 的這些公司大都在基于邊緣端做小算力的場景，比如語音識別、智能家居的喚醒、關(guān)鍵命令詞的識別等。

同時，F(xiàn)lash也面臨著因微縮性差導(dǎo)致不穩(wěn)定的問題。傳統(tǒng)存儲器的局限性讓行業(yè)逐漸將目光逐漸轉(zhuǎn)向了新型存儲器：

比如近期英飛凌宣布其下一代 AURIX ™微控制器 ( MCU ) 將采用新型非易失性存儲器 ( NVM ) RRAM ( ReRAM ) ；

億鑄科技自2020成立以來，就專注于研發(fā)基于RRAM的全數(shù)字存算一體大算力AI芯片。

ChatGPT，需要存算一體的“解救”，也需要該架構(gòu)下，更物美價廉（微縮性好、單位面積小、成本低）的新型存儲器RRAM的大力支持。

億歐獲悉，億鑄科技今年將誕生首顆基于RRAM的存算一體AI大算力芯片。屆時，或許“ChatGPT們”以及其下游的應(yīng)用能夠基于該芯片，更輕松地吸取算力，更快實現(xiàn)“智力”升維。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！