當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 大干快上，大模型加速數(shù)據(jù)中心行業(yè)洗牌

大干快上，大模型加速數(shù)據(jù)中心行業(yè)洗牌

更新時(shí)間：2023-12-20 14:33:34 | 作者：佚名

原文來源：鈦媒體作者：張帥圖片來源：由無界AI生成大模型，是數(shù)據(jù)中心產(chǎn)業(yè)十年一遇的變革。相比于以GPT為代表的大模型帶來的現(xiàn)象級(jí)熱度，數(shù)據(jù)中心產(chǎn)業(yè)太不「性感」了。長(zhǎng)久以來，數(shù)據(jù)中心產(chǎn)業(yè)較為成熟，但是重資產(chǎn)、長(zhǎng)周期、年折舊額高的屬性，注定了它不是一門互聯(lián)網(wǎng)式的快生意，也缺少激動(dòng)人心的故事。但不論是互聯(lián)網(wǎng)，還是如今的大模型，數(shù)字世界都得依靠物理基礎(chǔ)。...

原文來源：鈦媒體

作者：張帥

圖片來源：由無界 AI生成

大模型，是數(shù)據(jù)中心產(chǎn)業(yè)十年一遇的變革。

相比于以GPT為代表的大模型帶來的現(xiàn)象級(jí)熱度，數(shù)據(jù)中心產(chǎn)業(yè)太不「性感」了。長(zhǎng)久以來，數(shù)據(jù)中心產(chǎn)業(yè)較為成熟，但是重資產(chǎn)、長(zhǎng)周期、年折舊額高的屬性，注定了它不是一門互聯(lián)網(wǎng)式的快生意，也缺少激動(dòng)人心的故事。

但不論是互聯(lián)網(wǎng)，還是如今的大模型，數(shù)字世界都得依靠物理基礎(chǔ)。簡(jiǎn)而化之，AI產(chǎn)業(yè)的最上層是各種應(yīng)用，如人臉識(shí)別、工業(yè)大腦、智能客服，當(dāng)然還有ChatGPT，支撐這些應(yīng)用的則是云計(jì)算平臺(tái)，承載了大模型和算力調(diào)度等軟件功能，數(shù)據(jù)中心在更下一層，“風(fēng)、火、水、電”基礎(chǔ)設(shè)施，加上芯片、服務(wù)器等，海量數(shù)據(jù)的存儲(chǔ)和計(jì)算都在此發(fā)生。

上層應(yīng)用技術(shù)，直接影響底層數(shù)字基礎(chǔ)設(shè)施，數(shù)據(jù)中心層級(jí)的變化往往容易被忽略，實(shí)際上，通信、互聯(lián)網(wǎng)、云計(jì)算和大模型的發(fā)展，分別對(duì)應(yīng)機(jī)房、數(shù)據(jù)中心、云數(shù)據(jù)中心、智算中心（AIDC）的不同形態(tài)，尤其是大模型代表的人工智能技術(shù)，可能比此前所有的影響加起來還要大。

中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏表示，“今天的數(shù)據(jù)中心仍然是傳統(tǒng)技術(shù)和創(chuàng)新技術(shù)混合，再過大概十年，我們會(huì)進(jìn)入數(shù)據(jù)中心原生的時(shí)代，這些技術(shù)是土生土長(zhǎng)專用于數(shù)據(jù)中心，比較有代表性的如液冷技術(shù)、智算中心的飛速發(fā)展?！?/p>

2023年，數(shù)據(jù)中心行業(yè)之間的交流頻率明顯多了起來，在產(chǎn)業(yè)變換的關(guān)鍵節(jié)點(diǎn)，一面是客戶需求驅(qū)動(dòng)下的“大干快上”，另一面則是未被厘清的新技術(shù)路線，大模型讓數(shù)據(jù)中心廠商隱約嗅到了行業(yè)洗牌的味道。

“數(shù)據(jù)中心大干快上，就等GPU了”

過去一年，中國數(shù)據(jù)中心產(chǎn)業(yè)開啟了一場(chǎng)算力進(jìn)化的新征程，國家政策點(diǎn)名了方向。2023年10月份，工信部六部委印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量行動(dòng)計(jì)劃》，首次提出了算力中心相關(guān)的概念和發(fā)展要求，將通用數(shù)據(jù)中心、智算中心、超算中心都納入了算力基礎(chǔ)設(shè)施的內(nèi)涵。

其中明確到2025年，算力規(guī)模要超過300EFLOPS，智能算力占比達(dá)到35%以上，重點(diǎn)行業(yè)的核心數(shù)據(jù)、重要數(shù)據(jù)的災(zāi)備覆蓋率要達(dá)到百分之百，每個(gè)重點(diǎn)領(lǐng)域要打造30個(gè)應(yīng)用標(biāo)桿等。

與此同時(shí)，數(shù)據(jù)中心全面智算化，截至2023年上半年，全國在用的數(shù)據(jù)中心總規(guī)模超過760萬標(biāo)準(zhǔn)機(jī)架，算力總規(guī)模達(dá)到了197EFLOPS，已經(jīng)位居全球第二。新增的算力設(shè)施中，智能算力的占比超過了50%，成為了增長(zhǎng)的新熱點(diǎn)。

根據(jù)科智咨詢最新統(tǒng)計(jì)的數(shù)據(jù)，2023年1月份到12月份初，全國立項(xiàng)規(guī)劃建設(shè)的智算中心的項(xiàng)目數(shù)量達(dá)到118個(gè)，其中規(guī)劃算力大于1000P的項(xiàng)目16個(gè)，大于500P以上的26個(gè)，大于100P以上的項(xiàng)目56個(gè)。

而對(duì)于大部分?jǐn)?shù)據(jù)中心服務(wù)商來說，今年的主旋律就是一邊大干快上新建智算中心，一邊等AI算力卡，更準(zhǔn)確地說，是主要依賴GPU供應(yīng)市場(chǎng)份額90%的英偉達(dá)，否則只能選擇性能和產(chǎn)能不足的其他供應(yīng)商。

數(shù)據(jù)中心服務(wù)的核心是服務(wù)器，其架構(gòu)設(shè)計(jì)也是圍繞服務(wù)器，當(dāng)服務(wù)器發(fā)生任何一種變化，數(shù)據(jù)中心就要相應(yīng)做出調(diào)整，結(jié)合客戶預(yù)算和需求做兼容或創(chuàng)新的改變。大模型火爆之前，純GPU服務(wù)器的數(shù)據(jù)中心很少，充其量就是大規(guī)模數(shù)據(jù)中心有少數(shù)幾個(gè)GPU服務(wù)器機(jī)房，而且由于GPU的成本高昂，只有大型互聯(lián)網(wǎng)等企業(yè)才有相應(yīng)儲(chǔ)備。

一位數(shù)據(jù)中心業(yè)內(nèi)人士提到，“2023年是算力大元年，全行業(yè)都在搶GPU卡，而且是瘋狂地?fù)?，因?yàn)槭艿劫Q(mào)易政策的影響，現(xiàn)在進(jìn)入到暫緩供應(yīng)的階段，目前大家還是在積極部署數(shù)據(jù)中心，預(yù)計(jì)未來一段時(shí)間行業(yè)會(huì)有非常大的發(fā)展空間?！?/p>

“理論上客戶需求的緊迫性走在我們前面，但是客戶也受限于上游GPU的供應(yīng)，能不能按計(jì)劃拿到足量的算力卡是關(guān)鍵。我們與算力客戶先做算力中心規(guī)劃設(shè)計(jì)，先把符合需求的算力中心樓建造出來，分階段交付機(jī)電等，讓客戶有卡就能立馬上架”，普洛斯數(shù)據(jù)中心平臺(tái)產(chǎn)品部副總裁韓玉說。

韓玉透露，今年接到的需求中，超過七成以上都是智算中心的需求，由于大模型對(duì)算力的需求異常旺盛，大模型廠商對(duì)數(shù)據(jù)中心建設(shè)的時(shí)間表也一再壓縮。

在2014年左右，云數(shù)據(jù)中心的建設(shè)從空地開始，到機(jī)電交付是11個(gè)月，在2019年，行業(yè)領(lǐng)先的水平大概能做到9個(gè)月左右，今天數(shù)據(jù)中心可以做到從空地開始建設(shè)，到測(cè)試完成上架大概在7個(gè)半月左右。

以普洛斯今年交付的某項(xiàng)目為例，該客戶布局大模型之后需要自己的智算中心，4月下訂單，8月底安裝完，9月底做驗(yàn)收，10月份整個(gè)項(xiàng)目已經(jīng)投入運(yùn)營(yíng)，數(shù)據(jù)中心整體建筑采用了大量預(yù)制模塊，包括鋼結(jié)構(gòu)的預(yù)制樓、預(yù)制制冷模塊、電力組合標(biāo)準(zhǔn)模塊、預(yù)制機(jī)柜及通道密封預(yù)制化，從而實(shí)現(xiàn)快速交付。

大模型如何改變數(shù)據(jù)中心

為了滿足大模型的訓(xùn)練需求，智算中心有幾大明顯的變化，首先是服務(wù)器和機(jī)柜功率顯著提高，傳統(tǒng)x86架構(gòu)的通用計(jì)算服務(wù)器，標(biāo)準(zhǔn)形態(tài)是2U2節(jié)點(diǎn)或4節(jié)點(diǎn)，一臺(tái)服務(wù)器功率600W—900W，四十多U的機(jī)柜空間里插12—15臺(tái)服務(wù)器，其余部分是交換機(jī)、電源等模塊。到了智算時(shí)代，一臺(tái)GPU服務(wù)器八張GPU卡加兩個(gè)CPU，至少10千瓦、12千瓦起步。

以前一臺(tái)服務(wù)器里既有CPU，又有內(nèi)存和硬盤，今天的GPU服務(wù)器更像一種純算力的堆疊，在一定規(guī)模下，大模型訓(xùn)練效率隨著GPU數(shù)量增加而提高，前提是網(wǎng)絡(luò)時(shí)延足夠低。

智算中心的第二大變化，便是短距離傳輸，降低網(wǎng)絡(luò)時(shí)延。韓玉表示，通用服務(wù)器架構(gòu)設(shè)計(jì)需要算力經(jīng)網(wǎng)卡互聯(lián)造成轉(zhuǎn)換速率較慢，英偉達(dá)實(shí)現(xiàn)了CPU直連GPU的直接通信的架構(gòu)設(shè)計(jì)，算力效率數(shù)量級(jí)提升，更高功率、更短距離、更低時(shí)延、更可靠的GPU互聯(lián)，是大模型訓(xùn)練的基礎(chǔ)。

“今天的智算業(yè)務(wù)集群里，網(wǎng)絡(luò)成本超過20%，短距離高可靠性的低延時(shí)，是大家愿意投入去創(chuàng)新優(yōu)化的環(huán)節(jié)，因?yàn)樽銐蛴行詢r(jià)比。”他說。

第三，目前智算中心還未完全定型，架構(gòu)設(shè)計(jì)要具備高度兼容性。合盈數(shù)據(jù)CTO?周天宇提到，芯片、功率密度、風(fēng)液混合，三者均存在變數(shù)，一個(gè)數(shù)據(jù)中心?的壽命如果以20年計(jì)，基礎(chǔ)設(shè)施如何應(yīng)對(duì)由于芯片，不同制冷方式帶來的散熱挑戰(zhàn)，也是行業(yè)面臨的共性問題。

周天宇說，美國芯片禁令一次次嚴(yán)峻，從V系列到A系列，再到H系列，加上國產(chǎn)芯片以華為為代表的昇騰910B，一紙禁令就可能導(dǎo)致某款芯片斷貨，數(shù)據(jù)中心要能兼容不同類型、不同品牌、不同系列的芯片，不同芯片的采用直接影響服務(wù)器的功率密度，而高功率密度呼喚更高效率的制冷方案。

前述人士認(rèn)為，國外要封鎖中國的AI算力，只能是短期封鎖，國內(nèi)一些集成電路廠商或者GPU廠商正在加速發(fā)展，大概需要1—2年的時(shí)間緩沖，原來數(shù)據(jù)中心適應(yīng)的是國外GPU服務(wù)器，現(xiàn)在開始考慮適應(yīng)國內(nèi)GPU和CPU服務(wù)器，機(jī)遇遠(yuǎn)遠(yuǎn)大于挑戰(zhàn)。

科華數(shù)據(jù)股份有限公司高級(jí)副總裁鄒建忠也表示，機(jī)柜功率密度越大，芯片液冷散熱的比重就會(huì)越高，結(jié)合南北方的天氣因素，北方氣候條件比較好，對(duì)液冷需求相對(duì)沒那么高，南方則必須要有液冷，政策嚴(yán)格限制PUE在1.2到1.3左右，傳統(tǒng)風(fēng)冷方案遠(yuǎn)遠(yuǎn)沒辦法滿足，只要功率密度上升，液冷是必經(jīng)之路。

大模型訓(xùn)練消耗了高昂的電力成本，而推理對(duì)于算力的需求可能是訓(xùn)練的10倍。從電力成本的角度考量，無論是面向訓(xùn)練還是推理，行業(yè)內(nèi)形成了基本共識(shí)，支持大模型訓(xùn)練的智算中心，大家基本上傾向于到相對(duì)偏遠(yuǎn)、電費(fèi)比較低的地方，推理還是放在離城市比較近的區(qū)域，更多是環(huán)一線城市。

韓玉解釋道，云計(jì)算中心的業(yè)務(wù)本身就需要很短的數(shù)據(jù)交互和災(zāi)備切換，大量業(yè)務(wù)在做實(shí)時(shí)計(jì)算，大模型所在的智算中心則不同，當(dāng)一家大模型廠商有上億用戶，用戶問的問題分類相同，推理和計(jì)算需求大致相同的基本都算過了，只需要很小的網(wǎng)絡(luò)接入的服務(wù)就可以，計(jì)算和推理可以適度解耦，后臺(tái)專注大模型大需求算力，前臺(tái)推理分布布局。

新型智算中心的建設(shè)邏輯

“如果今天我們想做新一代的智算中心，一定不要想著‘穿舊鞋走新路’，一定要有新的思維、新的方法來應(yīng)對(duì)智算中心的需求和發(fā)展?！敝芴煊畹莱隽诵袠I(yè)的集體思考。

智算中心的建設(shè)牽一發(fā)而動(dòng)全身，十幾兆瓦的傳統(tǒng)數(shù)據(jù)中心，已經(jīng)算大規(guī)模數(shù)據(jù)中心，有時(shí)需要一兩年，甚至兩三年才放滿服務(wù)器，但是今天在建的智算中心，十幾兆瓦是起步，算力集群規(guī)模越來越大，就算是七十兆瓦的智算中心，十幾萬張GPU就能吃光電力。

傳統(tǒng)云計(jì)算中心承載的是同城兩點(diǎn)之間可漂移的云業(yè)務(wù)，今天的算力集群完全不同，很多數(shù)據(jù)中心已經(jīng)把網(wǎng)絡(luò)連到了推算一體，單一數(shù)據(jù)中心體量特別大。

據(jù)悉，美國純CPU的數(shù)據(jù)中心機(jī)柜在15千瓦左右，GPU機(jī)柜平均在25千瓦，國內(nèi)很多大廠單個(gè)機(jī)柜的密度能上升到70—100千瓦，風(fēng)液兼容是比較大的趨勢(shì)。隨著AIGC時(shí)代的到來，美國一個(gè)數(shù)據(jù)中心園區(qū)能達(dá)到200兆瓦—500兆瓦，單棟數(shù)據(jù)中心考慮到網(wǎng)絡(luò)、GPU、光纖等因素，數(shù)十兆瓦規(guī)模更多。

“我們遇到最新需求是要在一個(gè)園區(qū)里直接做一個(gè)5萬卡的大集群、60兆瓦的一個(gè)單體，跟云計(jì)算分成幾個(gè)樓和若干集群是完全不一樣的概念，結(jié)果就是單機(jī)功率很高，單元區(qū)越來越大。這時(shí)候優(yōu)先需求維度是算力效率怎么最大化和算力最佳性價(jià)比，其次才是優(yōu)化PUE。解決方案就是堆高功率密度和集中空間，結(jié)合最短光纖直連。所以智算時(shí)代，基礎(chǔ)設(shè)施彈性就是最大的挑戰(zhàn)?！表n玉說。

為了滿足高密度兼容彈性需求，普洛斯智算中心的建筑模型在規(guī)劃階段，就把建筑外部空間到機(jī)柜內(nèi)部空間，做成幾個(gè)模式組合，比如說40個(gè)10千瓦或者10個(gè)40千瓦服務(wù)器，怎么在一個(gè)空間里承載，在更短距離實(shí)現(xiàn)收斂，同時(shí)兼容風(fēng)冷和液冷的不同制冷方式，冷水系統(tǒng)也可做到全預(yù)制化，上下均可堆疊，液冷機(jī)柜可以前布線也可以后布線，并在建筑上方預(yù)留出制冷空間，解決風(fēng)冷或者液冷的擴(kuò)展問題。

鄒建忠提到，板式液冷和浸沒式液冷，是行業(yè)不同的創(chuàng)新方向，取決于現(xiàn)階段客戶評(píng)估的收益，過去的英偉達(dá)H800等芯片原生不支持液冷也就沒有大批應(yīng)用，如果新機(jī)房長(zhǎng)期功耗特別大，浸沒式液冷會(huì)更合適，但是如果從投資收益來看，前期投資太高，浸沒式液冷的投資收益并不好。

鈦媒體了解到，也正是因?yàn)槌杀靖叩仍?，行業(yè)普遍傾向于用板式液冷作為過渡，目前20千瓦左右的機(jī)柜占主流，板式液冷能夠較好滿足散熱需求，阿里云此前大力推進(jìn)浸沒式液冷，但從今年開始，加大了對(duì)板式液冷的投入，根本原因也是行業(yè)沒有達(dá)成共識(shí)，阿里云自身要付出的成本高昂。

不過浸沒式液冷依舊在小規(guī)模試驗(yàn)，例如，字節(jié)跳動(dòng)在東南亞就采用浸沒式液冷來保證服務(wù)器的穩(wěn)定性，雖然單體功耗不高，但是東南亞氣候炎熱，浸沒式液冷的投入產(chǎn)出比有所提高，板式液冷和浸沒式液冷無所謂領(lǐng)先與否，還是要結(jié)合應(yīng)用場(chǎng)景具體選擇。

數(shù)據(jù)中心產(chǎn)業(yè)已經(jīng)很久沒有如此熱鬧，既有挑戰(zhàn)封鎖的躍躍欲試，也有迎接新技術(shù)浪潮的興奮感，無可否認(rèn)的是，未來很長(zhǎng)一段時(shí)間，數(shù)據(jù)中心將被大模型重塑。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。

99ri日韩国产,日韩国产欧美另类,亚洲ⅴa在线va天堂va,青青青亚洲视频

大干快上，大模型加速數(shù)據(jù)中心行業(yè)洗牌

“數(shù)據(jù)中心大干快上，就等GPU了”

大模型如何改變數(shù)據(jù)中心

新型智算中心的建設(shè)邏輯

大干快上，大模型加速數(shù)據(jù)中心行業(yè)洗牌