一轉(zhuǎn)眼,2020年就到來(lái)了。對(duì)于數(shù)據(jù)中心產(chǎn)業(yè)來(lái)說(shuō),2020年將是充滿希望和收獲的一年,同時(shí)也是在綠色節(jié)能方面壓力更大的一年。與數(shù)年前各地?zé)崃覛g迎“高科技”產(chǎn)業(yè)的盛況相反,如今的數(shù)據(jù)中心“高能耗”產(chǎn)業(yè)名聲在外。如何平衡高速數(shù)字化發(fā)展對(duì)數(shù)據(jù)中心的需求,和數(shù)據(jù)中心給能源、環(huán)保帶來(lái)的壓力,是產(chǎn)業(yè)亟需解決的問(wèn)題。

從社會(huì)能耗的角度看,包括我國(guó)在內(nèi)的世界各國(guó)都在倡導(dǎo)低PUE的綠色中心建設(shè)。去年年初,工信部等三部門聯(lián)手發(fā)布了《關(guān)于加強(qiáng)綠色數(shù)據(jù)中心建設(shè)的指導(dǎo)意見(jiàn)》,推動(dòng)全國(guó)數(shù)據(jù)中心向節(jié)能綠色發(fā)展。在這前后,北京、上海、深圳等核心大城市紛紛出臺(tái)了相關(guān)的產(chǎn)業(yè)政策,嚴(yán)控?cái)?shù)據(jù)中心PUE數(shù)值,最低標(biāo)準(zhǔn)已經(jīng)達(dá)到了1.30(深圳地區(qū)甚至有1.25的相關(guān)指標(biāo)),這對(duì)現(xiàn)今的數(shù)據(jù)中心設(shè)計(jì)、建設(shè)和運(yùn)維是不折不扣的重大挑戰(zhàn)。
從數(shù)據(jù)中心本身來(lái)看,能源支出一直是數(shù)據(jù)中心運(yùn)營(yíng)成本的大頭。根據(jù)2015年至2019年期間進(jìn)行的相關(guān)研究表明,數(shù)據(jù)中心電力成本大約占運(yùn)營(yíng)成本的35%至40%。如果對(duì)一個(gè)典型的大型數(shù)據(jù)中心能耗進(jìn)行整體分析便可以發(fā)現(xiàn),IT系統(tǒng)之外的能源消耗占比大的就是制冷系統(tǒng)。因此,破解用電瓶頸、降低數(shù)據(jù)中心能耗的關(guān)鍵在于提升制冷系統(tǒng)效率。
降低PUE值本意就是削減IT系統(tǒng)之外的能源消耗,如果數(shù)據(jù)中心的PUE由1.80(2017年全球平均水平)下降到1.30,則意味著IT系統(tǒng)之外的能耗降低了62.5%,整體電力成本則削減了28%。從這里可以看出,控制PUE無(wú)疑是節(jié)省成本最有效、直觀的途徑。
“PUE”靠得住么?
而對(duì)于“唯PUE”論,行業(yè)內(nèi)也開(kāi)始了有了不同的聲音。眾所周知,PUE是衡量數(shù)據(jù)中心非IT系統(tǒng)能耗占比的一個(gè)數(shù)值。通過(guò)良好設(shè)計(jì)與建設(shè)的數(shù)據(jù)中心,采用合適的散熱方案,以及精細(xì)化運(yùn)維,理論P(yáng)UE數(shù)值可以降到1.1甚至更少。不過(guò)在實(shí)際運(yùn)營(yíng)中,大部分?jǐn)?shù)據(jù)中心是無(wú)法達(dá)到理論P(yáng)UE值的。機(jī)架空載、業(yè)務(wù)波動(dòng)、氣溫變化等等均可能影響到數(shù)據(jù)中心的PUE值。
按PUE計(jì)算的數(shù)據(jù)中心制冷功耗的平均比例
IT核心系統(tǒng)用電不能缺少,辦公、照明等系統(tǒng)耗電比例較低,所以降低PUE本質(zhì)上就是降低制冷系統(tǒng)的能耗。但制冷系統(tǒng)的調(diào)整對(duì)于整個(gè)數(shù)據(jù)中心溫度的影響并非線性的,簡(jiǎn)單的減少制冷系統(tǒng)功率,對(duì)于數(shù)據(jù)中心這樣的復(fù)雜體系來(lái)說(shuō),可能造成不可預(yù)估的后果。
IT系統(tǒng)運(yùn)行需要一個(gè)適宜的溫度,目前大部分?jǐn)?shù)據(jù)中心服務(wù)器溫度都控制的很嚴(yán)格,遠(yuǎn)低于國(guó)家標(biāo)準(zhǔn)以及行業(yè)組織的推薦值。之所以如此,是因?yàn)樵谀承┮蛩赜绊懴?,?dāng)大部分服務(wù)器處在合理溫度區(qū)間內(nèi)時(shí),部分服務(wù)器卻會(huì)偶然出現(xiàn)過(guò)熱的情況。而一旦溫度超出了服務(wù)器的工作極限,就必然面臨出錯(cuò)、宕機(jī)等故障。
與此同時(shí),還要考慮到IT系統(tǒng)在不同溫度下工作的效能問(wèn)題。機(jī)房溫度提升1℃,不等于服務(wù)器就同樣提高1℃并且照常運(yùn)行。相反,可能觸發(fā)服務(wù)器本身的散熱、保護(hù)系統(tǒng)等,比如服務(wù)器、機(jī)柜風(fēng)扇從待機(jī)到運(yùn)行。最終結(jié)果是服務(wù)器的效率沒(méi)有提升,機(jī)柜的整體功耗卻有增長(zhǎng)。這樣看來(lái),PUE是否還有降低空間需要更加復(fù)雜的整體測(cè)算。
最后一個(gè)問(wèn)題是,PUE本身只是一個(gè)計(jì)算數(shù)字,最終決定PUE是否“靠譜”的其實(shí)是運(yùn)維人員本身。雖然運(yùn)維人員可以掌握機(jī)房各方面的信息,但在各種復(fù)雜信息的干擾下,任何微小的調(diào)整,都會(huì)對(duì)機(jī)房這個(gè)非線性系統(tǒng)帶來(lái)不可預(yù)估的后果。當(dāng)然,運(yùn)維工程師也可以考慮通過(guò)一套完備的公式來(lái)預(yù)測(cè)調(diào)整效果,但目前看,還沒(méi)有這樣可以完善囊括機(jī)房所有影響因素的計(jì)算公式,人力也無(wú)法時(shí)刻準(zhǔn)確關(guān)注如此復(fù)雜的環(huán)境變化。
所以,目前數(shù)據(jù)中心對(duì)PUE以及制冷系統(tǒng)的調(diào)整,還處在經(jīng)驗(yàn)以及“拍腦袋”共用的“混沌”狀態(tài)。而數(shù)據(jù)中心數(shù)十年的發(fā)展歷史告訴我們,人工運(yùn)維失誤,永遠(yuǎn)是導(dǎo)致數(shù)據(jù)中心系統(tǒng)宕機(jī)的第一因素。
這時(shí),就需要AI來(lái)救場(chǎng)了。
iCooling應(yīng)需而生
廊坊,北臨京都,東接天津,素有“京津走廊明珠”之稱,很多影響京津冀的產(chǎn)業(yè)核心也往往落地于此。華為公有云的北方基地、華北地區(qū)數(shù)據(jù)樞紐-廊坊云數(shù)據(jù)中心即建設(shè)在這里。目前,華為廊坊云數(shù)據(jù)中心已投產(chǎn)4500個(gè)容量IT負(fù)載為36兆瓦的機(jī)架,可容納近10萬(wàn)臺(tái)服務(wù)器,巨額電力消耗帶來(lái)的運(yùn)營(yíng)成本居高不下。
華為廊坊云數(shù)據(jù)中心在下一個(gè)十年中容量將增長(zhǎng)10倍,并將能夠容納100萬(wàn)個(gè)服務(wù)器單元。屆時(shí)的電力需求將有10倍甚至更多的增長(zhǎng),不僅華為每年要為此付出數(shù)額巨大的電費(fèi),也會(huì)給園區(qū)供電帶來(lái)難以預(yù)估的壓力。
節(jié)能減排,控制成本是亟需解決的問(wèn)題。華為廊坊云數(shù)據(jù)中心采用了目前所有常見(jiàn)的先進(jìn)節(jié)能措施,包括行級(jí)精密空調(diào)、高效供配電,冷熱通道隔離等。在最新的方案還將部署間接蒸發(fā)式自然冷卻(IEC)系統(tǒng)——這是一種新型的自然冷卻(間接蒸發(fā))系統(tǒng),可以高效的利用外部冷源,大幅降低制冷系統(tǒng)的電力消耗。
如前文所說(shuō),傳統(tǒng)的制冷系統(tǒng)管理雖然久經(jīng)驗(yàn)證,但高度依賴運(yùn)維人員的經(jīng)驗(yàn),從整體看缺乏靈活性和精確性。為了保障服務(wù)器的安全運(yùn)行,大多數(shù)機(jī)房溫度冗余范圍很大,必然導(dǎo)致能效降低。而復(fù)雜的體系,也限制了運(yùn)維調(diào)整空間,只能在幾個(gè)固定模式之間切換,無(wú)法根據(jù)系統(tǒng)的實(shí)際用量做出精確的調(diào)整。
為了解決這一問(wèn)題,華為引入了基于AI的系統(tǒng)控制方案——iCooling。
“驗(yàn)證”引領(lǐng)“普惠”
華為并不是第一個(gè)利用AI來(lái)控制制冷系統(tǒng)的,谷歌在過(guò)去十年中一直嘗試使用DeepMind AI讓AI系統(tǒng)負(fù)責(zé)部分?jǐn)?shù)據(jù)中心的用電來(lái)減少數(shù)據(jù)中心的能源費(fèi)用。據(jù)谷歌透露,截止2014年,AI幫助其數(shù)據(jù)中心的平均PUE達(dá)到1.12,此后幾年均保持并降低了這一平均值,每年因此可節(jié)省40%的制冷費(fèi)用。按照PUE 1.12計(jì)算,不考慮辦公、照明系統(tǒng)的情況下,相當(dāng)于節(jié)省了近4.8%的電力支出。
在國(guó)內(nèi),華為無(wú)疑是在這條探索的道路上走的最遠(yuǎn)的一個(gè),并且取得了令人滿意的階段性成果。2018年5月,華為iCooling解決方案首次被部署在華為廊坊云數(shù)據(jù)中心的1500個(gè)機(jī)架上。目前該試點(diǎn)區(qū)域(1500個(gè)機(jī)架)的年平均PUE已降低至1.3以下,節(jié)省了8%的電力消耗。
AI調(diào)控機(jī)房環(huán)境,就原理來(lái)說(shuō)與運(yùn)維工程師的做法并無(wú)二致,同樣是通過(guò)調(diào)整制冷系統(tǒng)比如出風(fēng)溫度來(lái)影響整個(gè)機(jī)房的溫度。只不過(guò)對(duì)于人類來(lái)說(shuō)難以同時(shí)監(jiān)控并且做出應(yīng)對(duì)大量系統(tǒng)參數(shù)的變化,AI處理起來(lái)不過(guò)是舉手之勞。真正的難點(diǎn)在于,當(dāng)調(diào)整了其中一個(gè)參數(shù)時(shí),系統(tǒng)中的其它參數(shù)將做出如何改變,又應(yīng)該如何配合。在目前的運(yùn)維體系中沒(méi)有現(xiàn)成的公式或算法可參考。
大數(shù)據(jù)與AI的結(jié)合,是尋找這種算法的利器。通過(guò)使用海量的歷史數(shù)據(jù)來(lái)訓(xùn)練AI神經(jīng)網(wǎng)絡(luò),讓AI通過(guò)機(jī)器學(xué)習(xí)算法,分析PUE與數(shù)據(jù)中心內(nèi)具體組件生成的數(shù)據(jù)之間的聯(lián)系,以發(fā)現(xiàn)不同設(shè)備與不同系統(tǒng)參數(shù)對(duì)系統(tǒng)整體的影響。最后,通過(guò)建立數(shù)學(xué)模型,以大量傳感器數(shù)據(jù)作為輸入?yún)?shù),最終找到實(shí)現(xiàn)所需結(jié)果的最佳配置。
在華為廊坊云數(shù)據(jù)中心,iCooling從700多個(gè)監(jiān)控點(diǎn)、傳感器中收集數(shù)據(jù),分析這些數(shù)據(jù)與系統(tǒng)PUE數(shù)值、能效之間的關(guān)聯(lián)度,并成功識(shí)別出最重要的21類變量?;谶@21類變量,華為iCooling訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),建立動(dòng)態(tài)PUE模型。訓(xùn)練后的PUE模型預(yù)測(cè)準(zhǔn)確性達(dá)到了99.5%,誤差僅為0.005。利用該模型,邊緣AI推理平臺(tái)(Atlas 200)可在1分鐘內(nèi)從140萬(wàn)中初始組合中找出最佳的制冷策略,其準(zhǔn)確性和速度已遠(yuǎn)超出具經(jīng)驗(yàn)的數(shù)據(jù)中心工程師的能力
打敗“人類”只是第一步,AI下一步目標(biāo)是提升整個(gè)制冷系統(tǒng)的智能化程度。目前通常整個(gè)機(jī)房的制冷都基于統(tǒng)一的制冷或散熱的設(shè)備,不能做到單體控制。即使對(duì)機(jī)房、供電等部分單獨(dú)供冷,也很難做到保證每一個(gè)單元都運(yùn)行在最優(yōu)溫度區(qū)間內(nèi)。智能化的制冷系統(tǒng)將根據(jù)每個(gè)單元的需求,自行調(diào)節(jié)供冷功率,大化的降低損耗。
當(dāng)然,AI在數(shù)據(jù)中心的應(yīng)用遠(yuǎn)不止調(diào)整PUE這一個(gè)選項(xiàng)。在運(yùn)維、風(fēng)險(xiǎn)管理、安全管理等方面,AI也將發(fā)揮重大的作用。不過(guò)就目前來(lái)講,雖然大多數(shù)數(shù)據(jù)中心企業(yè)表現(xiàn)出了對(duì)AI的興趣,但缺乏實(shí)踐的現(xiàn)狀,讓AI普及的廣度、深度均不及預(yù)期。
好在有眾多類似華為這樣的企業(yè),以自身業(yè)務(wù)為基礎(chǔ),積極推進(jìn)AI實(shí)踐,為業(yè)界提供可參考的案例。如河南聯(lián)通中原基地、寧夏移動(dòng)中衛(wèi)數(shù)據(jù)中心等項(xiàng)目中也都有了AI節(jié)能方面的應(yīng)用,樹(shù)立了綠色數(shù)據(jù)中心的新標(biāo)桿。
相信隨著iCooling以及一系列AI技術(shù)在數(shù)據(jù)中心運(yùn)營(yíng)和管理中的作用越來(lái)越廣泛,“智能運(yùn)維”、“無(wú)人值守”等概念不再只是被反復(fù)提及的“熱詞”。
數(shù)據(jù)中心只是AI的落腳點(diǎn)之一,在各行各業(yè)中AI均能發(fā)揮出人力所無(wú)法達(dá)到的作用。例如iCooling還可用于智能樓宇能源管理,可以監(jiān)控和優(yōu)化工業(yè)園區(qū)、大學(xué)和校園的用電情況,從能源角度打造真正的“智慧園區(qū)”。只有不斷將類似的技術(shù)或者理念深入到生活、生產(chǎn)中的方方面面,AI的普惠之路才真正延伸到人類社會(huì)中。












