OCP China Day2023觀察:液冷成為必然 助力綠色計(jì)算發(fā)展
CXL高速交換技術(shù)、SONiC開放網(wǎng)絡(luò)、54V直流供電、鈦金電源、液冷……日前舉辦的2023年開放計(jì)算中國(guó)社區(qū)技術(shù)峰會(huì)(OCP China Day 2023)上,一批熱門數(shù)據(jù)中心技術(shù)集中展示,為開放數(shù)據(jù)中心的場(chǎng)景創(chuàng)新賦予更多可能。
自2019年以來,OCP China Day已經(jīng)成為一年一度業(yè)界領(lǐng)袖探討開放計(jì)算技術(shù)和創(chuàng)新的年度盛會(huì)。以"OpenMomentum:智能化、可拓展、可持續(xù)"為主題的本屆峰會(huì)上,液冷成為數(shù)據(jù)中心基礎(chǔ)設(shè)施創(chuàng)新與可持續(xù)發(fā)展的關(guān)注熱點(diǎn),多位OCP社區(qū)領(lǐng)袖、技術(shù)大咖、行業(yè)專家,以及IT工程師和數(shù)據(jù)中心從業(yè)者在綠色計(jì)算發(fā)展論壇進(jìn)行了探討。
筆者通過本次峰會(huì)看到,隨著AIGC需求與能耗政策的雙重驅(qū)動(dòng),液冷成為綠色計(jì)算的最重要也是必然手段,其技術(shù)演進(jìn)、應(yīng)用實(shí)踐、產(chǎn)業(yè)生態(tài)、開放標(biāo)準(zhǔn)等方面正日益發(fā)展完善。
更高效率更少能耗 液冷成綠色計(jì)算的必然
液冷即使用液體作為熱量傳輸媒介,帶走發(fā)熱部件熱量進(jìn)行冷卻的散熱技術(shù)。由于液體的比熱容遠(yuǎn)高于空氣,熱傳導(dǎo)效率更高,液冷在散熱效率方面遠(yuǎn)高于風(fēng)冷。
近年來,數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng),芯片功耗與服務(wù)器功率逐步上升,數(shù)據(jù)中心功率密度和機(jī)架功率也在不斷提升。有研究機(jī)構(gòu)發(fā)布數(shù)據(jù)顯示,當(dāng)前全球5-9kW/rack的機(jī)架占比較多,功率超過10kW/rack的機(jī)架占比達(dá)到近30%*。今年以來ChatGPT引發(fā) AIGC發(fā)展熱潮,芯片功耗日益增加,未來兩年預(yù)測(cè)可突破500/700w,隨著AI技術(shù)、智算等迅猛發(fā)展,單機(jī)功率將高達(dá)50kW以上。(*:中國(guó)信通院《數(shù)據(jù)中心白皮書(2022)》)
傳統(tǒng)風(fēng)冷散熱在換熱性能上面臨瓶頸的同時(shí),其制冷系統(tǒng)的能源消耗在數(shù)據(jù)中心能耗中占比近半,導(dǎo)致數(shù)據(jù)中心能耗總量和PUE值過高,難以滿足發(fā)改委及工信部政策中對(duì)新建數(shù)據(jù)中心PUE值1.3的限制。
業(yè)內(nèi)普遍認(rèn)為,風(fēng)冷已經(jīng)無法滿足當(dāng)前高功率計(jì)算的散熱需求和綠色要求,正如中國(guó)信通院云計(jì)算與大數(shù)據(jù)所所長(zhǎng)何寶宏所說“再大的風(fēng)也吹不冷滾燙的‘芯’了”。
采用液冷技術(shù)是應(yīng)對(duì)數(shù)據(jù)中心散熱挑戰(zhàn)的有效方式,多位IDC高管向筆者表示,嚴(yán)格的數(shù)據(jù)中心能耗政策要求下,“液冷成為必然”。
相較于風(fēng)冷,液冷的散熱效率更高,能減少服務(wù)器散熱熱點(diǎn),抑制元件內(nèi)部溫度的瞬間提升,同等散熱能力下能源消耗量則更低,有效幫助數(shù)據(jù)中心節(jié)能降耗,控制PUE。
浪潮信息液冷數(shù)據(jù)中心產(chǎn)品營(yíng)銷總監(jiān)朱亮在演講中以一組數(shù)字展示液冷的高效:根據(jù)相關(guān)計(jì)算,實(shí)現(xiàn)1000kw散熱能力,當(dāng)完全用傳統(tǒng)風(fēng)冷空調(diào)需要消耗約500kW電能,這些電能大部分被冷水機(jī)組和末端精密空調(diào)所消耗;當(dāng)數(shù)據(jù)中心采用混合冷卻,風(fēng)冷空調(diào)+液冷系統(tǒng)需要消耗約100kW電能;數(shù)據(jù)中心完全采用液冷散熱,則只需要消耗約30kw電能。他指出:“液冷比風(fēng)冷節(jié)能達(dá)90%以上,數(shù)據(jù)中心液冷占比越高,節(jié)能收益越明顯。”
憑借對(duì)產(chǎn)業(yè)和市場(chǎng)發(fā)展的前瞻性,浪潮信息早在2017年就推出了冷板式液冷服務(wù)器,在液冷尚未被AIGC帶動(dòng)“爆火”前的2022年初,又將“All in液冷”納入公司發(fā)展戰(zhàn)略,全棧布局液冷,實(shí)現(xiàn)通用服務(wù)器、高密度服務(wù)器、整機(jī)柜服務(wù)器、AI服務(wù)器四大系列全線產(chǎn)品均支持冷板式液冷。
浪潮信息全棧液冷解決方案
到目前,浪潮信息已經(jīng)可以實(shí)現(xiàn)液冷從核心部件、服務(wù)器到整體解決方案全覆蓋,并且提供液冷數(shù)據(jù)中心從規(guī)劃咨詢到設(shè)計(jì)施工的全生命周期端到端交付。
高效安全 液冷這樣做
今年,政策和需求帶動(dòng)下,近60家數(shù)據(jù)中心擬建/開工/在建/交付,液冷技術(shù)迎來爆發(fā),開工、投用的液冷數(shù)據(jù)中心項(xiàng)目顯著增加。
液冷實(shí)施效果如何,是否能實(shí)現(xiàn)預(yù)期的散熱和節(jié)能減排目標(biāo)?像京東一樣走在行業(yè)前列的大規(guī)模液冷數(shù)據(jù)中心實(shí)踐案例是最有說服力的證明。
京東云架構(gòu)師王貴林介紹,京東在全球擁有超過70座數(shù)據(jù)中心,運(yùn)營(yíng)機(jī)柜規(guī)模超10萬,為降低PUE,獲取最低TCO,實(shí)現(xiàn)碳中和目標(biāo),采取了一系列數(shù)據(jù)中心綠色節(jié)能技術(shù),其中就包括自研冷板式液冷服務(wù)器。
“第一代冷板式液冷服務(wù)器在京東數(shù)據(jù)中心運(yùn)行兩年,整個(gè)液冷系統(tǒng)前期建設(shè)成本增加2%——這部分成本在15個(gè)月實(shí)現(xiàn)了整體成本回收,全生命周期服務(wù)器TCO降低5%,助力京東自建數(shù)據(jù)中心PUE值降低至1.1,單機(jī)柜碳排放減少百余噸。”
他透露,京東冷板式液冷服務(wù)器已經(jīng)迭代到第二代,經(jīng)過一系列設(shè)計(jì)優(yōu)化,二代成本較第一代降低15%,散熱效率相較于傳統(tǒng)風(fēng)冷提升50%,碳排放總量降低30%。
除實(shí)施效果外,安全性是數(shù)據(jù)中心及行業(yè)用戶對(duì)液冷的很大疑慮。以目前應(yīng)用較廣的冷板式液冷為例,“冷卻液泄露怎么辦?服務(wù)器功能和使用壽命是否會(huì)受影響?”談液冷時(shí)常聽到這樣的問題。
朱亮介紹了冷板式液冷防止冷卻液泄露進(jìn)入服務(wù)器內(nèi)部的技術(shù)路線,以及保障液體不漏、少漏的一系列措施:
首先,關(guān)注整體液體循環(huán)系統(tǒng)的各個(gè)細(xì)節(jié),如冷板的焊接技術(shù)、管道的接管技術(shù)、接頭的性能、CDU監(jiān)控能力等,防止液體從系統(tǒng)中泄露;
其次,一旦液體流出管路發(fā)生泄露時(shí),自帶的三級(jí)甚至四級(jí)防漏液檢測(cè)系統(tǒng)馬上告警,保證第一時(shí)間檢測(cè)到以便客戶采取措施,如聯(lián)動(dòng)服務(wù)器的監(jiān)控設(shè)備進(jìn)行服務(wù)器關(guān)停,以及運(yùn)維檢修等工作;
此外,二次側(cè)的環(huán)路一旦發(fā)現(xiàn)漏液,可以采用漏液檢測(cè)繩和動(dòng)環(huán)系統(tǒng)進(jìn)行聯(lián)控,第一時(shí)間讓客戶知道,可避免單點(diǎn)故障引發(fā)整體系統(tǒng)停工的情況發(fā)生。
史陶比爾快速接頭產(chǎn)品技術(shù)負(fù)責(zé)人李鵬以快速連接器為例,展示了液冷產(chǎn)品在提升安全性上對(duì)細(xì)節(jié)的關(guān)注度。
他介紹,快速連接器是液冷中連接冷板和分液器之間的關(guān)鍵組件,能夠?qū)崿F(xiàn)快速連接和斷開回路的功能,在液冷系統(tǒng)全生命周期,如測(cè)試階段、組裝運(yùn)維階段以及未來升級(jí)末期發(fā)揮著不可或缺的作用。也正因如此,連接器的安全可靠對(duì)整個(gè)液冷系統(tǒng)至關(guān)重要, 其失效引發(fā)的泄露可能會(huì)導(dǎo)致整個(gè)服務(wù)器機(jī)架失效。為服務(wù)器和高性能計(jì)算機(jī)做液冷設(shè)計(jì)選擇快速連接器時(shí),至少考慮五個(gè)主要因素:一是堅(jiān)固的結(jié)構(gòu)和設(shè)計(jì),二是“干式端開”的能力,三是金屬材質(zhì)兼容性,四是密封圈兼容性,五是操作簡(jiǎn)便性,以確保其安全可靠,如此才能保障液冷系統(tǒng)長(zhǎng)效運(yùn)行。
不積跬步,無以至千里。不積小流,無以成江海。對(duì)快速連接器等無數(shù)細(xì)節(jié)的注重,以及諸多安全監(jiān)測(cè)手段,筑成了液冷產(chǎn)品的安全堤壩,為客戶的計(jì)算安全保駕護(hù)航。
面向未來 全面液冷
AIGC熱潮席卷,國(guó)內(nèi)外通用大模型與產(chǎn)業(yè)大模型產(chǎn)品紛紛落地,計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)架構(gòu)都在面臨新需求,走向新方向。
應(yīng)需而變,液冷技術(shù)呈現(xiàn)三大發(fā)展趨勢(shì):1)IT設(shè)備更“液冷”,提高冷板覆蓋部件規(guī)模,實(shí)現(xiàn)全液冷;2)基礎(chǔ)設(shè)施更“液冷”,風(fēng)冷輔助冷卻轉(zhuǎn)為液冷輔助冷卻,數(shù)據(jù)中心液冷占比提高,PUE值更低,去空調(diào)化;3)冷板更高效,高換熱能力液冷技術(shù)需求,中高溫水條件下支持高功耗芯片。
針對(duì)液冷未來方向,以浪潮信息為代表的液冷廠商正進(jìn)行持續(xù)創(chuàng)新研發(fā)。朱亮表示,為了實(shí)現(xiàn)基礎(chǔ)設(shè)施更“液冷”,解決冷板式液冷需要空調(diào)補(bǔ)償?shù)膯栴},浪潮信息研發(fā)了全液冷機(jī)柜產(chǎn)品,在數(shù)據(jù)中心和機(jī)柜層面可以不采用精密空調(diào),而是以全自然的液冷背板門的方式替代。
“這種背板門是通過引入高溫水進(jìn)來的方式,將服務(wù)器其他熱量由風(fēng)冷方式帶走,相對(duì)傳統(tǒng)的風(fēng)冷機(jī)房能耗降低60%以上。”
他指出全液冷機(jī)柜產(chǎn)品具有四方面優(yōu)勢(shì):在算力密度方面,冷板可以支持1000W的芯片散熱,單柜支持100kW的散熱能力,相比傳統(tǒng)的數(shù)據(jù)中心提高10倍以上,空間利用率達(dá)到5~10倍;在換熱性方面,液冷背板門比空調(diào)更加貼近于熱源,一個(gè)背板門的換熱能力達(dá)到20千瓦,能耗小于兩千瓦,所以COP值可以達(dá)到10以上,實(shí)現(xiàn)了高效換熱;在安全系數(shù)方面,整個(gè)背板門依托于先進(jìn)的管路焊接技術(shù),承壓可以達(dá)到6兆帕,包括內(nèi)部的節(jié)點(diǎn)器件機(jī)柜有三重漏液檢測(cè)系統(tǒng);標(biāo)準(zhǔn)規(guī)范方面,全液冷機(jī)柜符合OCP開放標(biāo)準(zhǔn),適配全系列的液冷服務(wù)器接口,現(xiàn)場(chǎng)水電即插即用。
當(dāng)前,全球能源短缺與碳排放問題日益嚴(yán)峻,隨著芯片技術(shù)和AIGC的不斷進(jìn)步,液冷將逐漸成為數(shù)據(jù)中心散熱的首選,也是實(shí)現(xiàn)綠色計(jì)算和可持續(xù)發(fā)展的必然。
獨(dú)行快,眾行遠(yuǎn)。液冷的應(yīng)用普及,綠色計(jì)算的實(shí)現(xiàn),不僅需要更多企業(yè)像浪潮信息、史陶比爾、京東一樣投入液冷產(chǎn)品與解決方案的創(chuàng)新,也需要推出更多行業(yè)技術(shù)標(biāo)準(zhǔn),助力液冷產(chǎn)品快速發(fā)展和液冷技術(shù)的大規(guī)模普及。