傳統(tǒng)的數(shù)據(jù)中心主要是依據(jù)功能進行區(qū)域劃分,例如WEB、APP、DB,辦公區(qū)、業(yè)務(wù)區(qū)、內(nèi)聯(lián)區(qū)、外聯(lián)區(qū)等等。不同區(qū)域之間通過網(wǎng)關(guān)和安全設(shè)備互訪,保證不同區(qū)域的可靠性、安全性。同時,不同區(qū)域由于具有不同的功能,因此需要相互訪問數(shù)據(jù)時,只要終端之間能夠通信即可,并不一定要求通信雙方處于同一VLAN或二層網(wǎng)絡(luò)。
傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù), STP是二層網(wǎng)絡(luò)中非常重要的一種協(xié)議。用戶構(gòu)建網(wǎng)絡(luò)時,為了保證可靠性,通常會采用冗余設(shè)備和冗余鏈路,這樣就不可避免的形成環(huán)路。而二層網(wǎng)絡(luò)處于同一個廣播域下,廣播報文在環(huán)路中會反復(fù)持續(xù)傳送,形成廣播風(fēng)暴,瞬間即可導(dǎo)致端口阻塞和設(shè)備癱瘓。因此,為了防止廣播風(fēng)暴,就必須防止形成環(huán)路。這樣,既要防止形成環(huán)路,又要保證可靠性,就只能將冗余設(shè)備和冗余鏈路變成備份設(shè)備和備份鏈路。即冗余的設(shè)備端口和鏈路在正常情況下被阻塞掉,不參與數(shù)據(jù)報文的轉(zhuǎn)發(fā)。只有當(dāng)前轉(zhuǎn)發(fā)的設(shè)備、端口、鏈路出現(xiàn)故障,導(dǎo)致網(wǎng)絡(luò)不通的時候,冗余的設(shè)備端口和鏈路才會被打開,使得網(wǎng)絡(luò)能夠恢復(fù)正常。實現(xiàn)這些自動控制功能的就是STP(Spanning Tree Protocol,生成樹協(xié)議)。
由于STP的收斂性能等原因,一般情況下STP的網(wǎng)絡(luò)規(guī)模不會超過100臺交換機。同時由于STP需要阻塞掉冗余設(shè)備和鏈路,也降低了網(wǎng)絡(luò)資源的帶寬利用率。因此在實際網(wǎng)絡(luò)規(guī)劃時,從轉(zhuǎn)發(fā)性能、利用率、可靠性等方面考慮,會盡可能控制STP網(wǎng)絡(luò)范圍。
一、 大二層也是為了流通的要求
隨著數(shù)據(jù)大集中的發(fā)展和虛擬化技術(shù)的應(yīng)用,數(shù)據(jù)中心的規(guī)模與日俱增,不僅對二層網(wǎng)絡(luò)的區(qū)域范圍要求也越來越大,在需求和管理水平上也提出了新的挑戰(zhàn)。
數(shù)據(jù)中心區(qū)域規(guī)模和業(yè)務(wù)處理需求的增加,對于集群處理的應(yīng)用越來越多,集群內(nèi)的服務(wù)器需要在一個二層VLAN下。同時,虛擬化技術(shù)的應(yīng)用,在帶來業(yè)務(wù)部署的便利性和靈活性基礎(chǔ)上,虛擬機的遷移問題也成為必須要考慮的問題。為了保證虛擬機承載業(yè)務(wù)的連續(xù)性,虛擬機遷移前后的IP地址不變,因此虛擬機的遷移范圍需要在同一個二層VLAN下。反過來即,二層網(wǎng)絡(luò)規(guī)模有多大,虛擬機才能遷移有多遠。
傳統(tǒng)的基于STP備份設(shè)備和鏈路方案已經(jīng)不能滿足數(shù)據(jù)中心規(guī)模、帶寬的需求,并且STP協(xié)議幾秒至幾分鐘的故障收斂時間,也不能滿足數(shù)據(jù)中心的可靠性要求。因此,需要能夠有新的技術(shù),在滿足二層網(wǎng)絡(luò)規(guī)模的同時,也能夠充分利用冗余設(shè)備和鏈路,提升鏈路利用率,而且數(shù)據(jù)中心的故障收斂時間能夠降低到亞秒甚至毫秒級。
二、 大二層需要有多大
既然二層網(wǎng)絡(luò)規(guī)模需要擴大,那么大到什么程度合適?這取決于應(yīng)用場景和技術(shù)選擇。
1. 數(shù)據(jù)中心內(nèi)
大二層首先需要解決的是數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò)擴展問題,通過大規(guī)模二層網(wǎng)絡(luò)和VLAN延伸,實現(xiàn)虛擬機在數(shù)據(jù)中心內(nèi)部的大范圍遷移。由于數(shù)據(jù)中心內(nèi)的大二層網(wǎng)絡(luò)都要覆蓋多個接入交換機和核心交換機,主要有以下兩類技術(shù)。
虛擬交換機技術(shù)
虛擬交換機技術(shù)的出發(fā)點很簡單,屬于工程派。既然二層網(wǎng)絡(luò)的核心是環(huán)路問題,而環(huán)路問題是隨著冗余設(shè)備和鏈路產(chǎn)生的,那么如果將相互冗余的兩臺或多臺設(shè)備、兩條或多條鏈路合并成一臺設(shè)備和一條鏈路,就可以回到之前的單設(shè)備、單鏈路情況,環(huán)路自然也就不存在了。尤其是交換機技術(shù)的發(fā)展,虛擬交換機從低端盒式設(shè)備到高端框式設(shè)備都已經(jīng)廣泛應(yīng)用,具備了相當(dāng)?shù)某墒於群头€(wěn)定度。因此,虛擬交換機技術(shù)成為目前應(yīng)用廣的大二層解決方案。
虛擬交換機技術(shù)的代表是H3C公司的IRF、Cisco公司的VSS,其特點是只需要交換機軟件升級即可支持,應(yīng)用成本低,部署簡單。目前這些技術(shù)都是各廠商獨立實現(xiàn)和完成的,只能同一廠商的相同系列產(chǎn)品之間才能實施虛擬化。同時,由于高端框式交換機的性能、密度越來越高,對虛擬交換機的技術(shù)要求也越來越高,目前框式交換機的虛擬化密度高為4:1.虛擬交換機的密度限制了二層網(wǎng)絡(luò)的規(guī)模大約在1萬~2萬臺服務(wù)器左右。
隧道技術(shù)
隧道技術(shù)屬于技術(shù)派,出發(fā)點是借船出海。二層網(wǎng)絡(luò)不能有環(huán)路,冗余鏈路必須要阻塞掉,但三層網(wǎng)絡(luò)顯然不存在這個問題,而且還可以做ECMP(等價鏈路),能否借用過來呢?通過在二層報文前插入額外的幀頭,并且采用路由計算的方式控制整網(wǎng)數(shù)據(jù)的轉(zhuǎn)發(fā),不僅可以在冗余鏈路下防止廣播風(fēng)暴,而且可以做ECMP.這樣可以將二層網(wǎng)絡(luò)的規(guī)模擴展到整張網(wǎng)絡(luò),而不會受核心交換機數(shù)量的限制。
隧道技術(shù)的代表是TRILL、SPB,都是通過借用IS-IS路由協(xié)議的計算和轉(zhuǎn)發(fā)模式,實現(xiàn)二層網(wǎng)絡(luò)的大規(guī)模擴展。這些技術(shù)的特點是可以構(gòu)建比虛擬交換機技術(shù)更大的超大規(guī)模二層網(wǎng)絡(luò)(應(yīng)用于大規(guī)模集群計算),但尚未完全成熟,目前正在標(biāo)準(zhǔn)化過程中。同時傳統(tǒng)交換機不僅需要軟件升級,還需要硬件支持。
2. 跨數(shù)據(jù)中心
隨著數(shù)據(jù)中心多中心的部署,虛擬機的跨數(shù)據(jù)中心遷移、災(zāi)備,跨數(shù)據(jù)中心業(yè)務(wù)負(fù)載分擔(dān)等需求,使得二層網(wǎng)絡(luò)的擴展不僅是在數(shù)據(jù)中心的邊界為止,還需要考慮跨越數(shù)據(jù)中心機房的區(qū)域,延伸到同城備份中心、遠程災(zāi)備中心。
一般情況下,多數(shù)據(jù)中心之間的連接是通過路由連通的,天然是一個三層網(wǎng)絡(luò)。而要實現(xiàn)通過三層網(wǎng)絡(luò)連接的兩個二層網(wǎng)絡(luò)互通,就必須實現(xiàn)“L2 over L3”。
L2oL3技術(shù)也有許多種,例如傳統(tǒng)的VPLS(MPLS L2VPN)技術(shù),以及新興的Cisco OTV、H3C EVI技術(shù),都是借助隧道的方式,將二層數(shù)據(jù)報文封裝在三層報文中,跨越中間的三層網(wǎng)絡(luò),實現(xiàn)兩地二層數(shù)據(jù)的互通。這種隧道就像一個虛擬的橋,將多個數(shù)據(jù)中心的二層網(wǎng)絡(luò)貫穿在一起。
另外,也有部分虛擬化和軟件廠商提出了軟件的L2 over L3技術(shù)解決方案。例如VMware的VXLAN、微軟的NVGRE,在虛擬化層的vSwitch中將二層數(shù)據(jù)封裝在UDP、GRE報文中,在物理網(wǎng)絡(luò)拓?fù)渖蠘?gòu)建一層虛擬化網(wǎng)絡(luò)層,從而擺脫對網(wǎng)絡(luò)設(shè)備層的二層、三層限制。這些技術(shù)由于性能、擴展性等問題,也沒有得到廣泛的使用。
一、數(shù)據(jù)中心之間的互聯(lián)方式
網(wǎng)絡(luò)三層互聯(lián)。也稱為數(shù)據(jù)中心前端網(wǎng)絡(luò)互聯(lián),所謂"前端網(wǎng)絡(luò)"是指數(shù)據(jù)中心面向企業(yè)園區(qū)網(wǎng)或企業(yè)廣域網(wǎng)的出口。不同數(shù)據(jù)中心(主中心、災(zāi)備中心)的前端網(wǎng)絡(luò)通過IP技術(shù)實現(xiàn)互聯(lián),園區(qū)或分支的客戶端通過前端網(wǎng)絡(luò)訪問各數(shù)據(jù)中心。當(dāng)主數(shù)據(jù)中心發(fā)生災(zāi)難時,前端網(wǎng)絡(luò)將實現(xiàn)快速收斂,客戶端通過訪問災(zāi)備中心以保障業(yè)務(wù)連續(xù)性;
網(wǎng)絡(luò)二層互聯(lián)。也稱為數(shù)據(jù)中心服務(wù)器網(wǎng)絡(luò)互聯(lián)。在不同的數(shù)據(jù)中心服務(wù)器網(wǎng)絡(luò)接入層,構(gòu)建一個跨數(shù)據(jù)中心的大二層網(wǎng)絡(luò)(VLAN),以滿足服務(wù)器集群或虛擬機動態(tài)遷移等場景對二層網(wǎng)絡(luò)接入的需求;
SAN互聯(lián)。也稱為后端存儲網(wǎng)絡(luò)互聯(lián)。借助傳輸技術(shù)(DWDM、SDH等)實現(xiàn)主中心和災(zāi)備中心間磁盤陣列的數(shù)據(jù)復(fù)制。
二、數(shù)據(jù)中心二層互聯(lián)的業(yè)務(wù)需求
服務(wù)器高可用集群
服務(wù)器集群(Cluster),是借助集群軟件將網(wǎng)絡(luò)上的多臺服務(wù)器關(guān)聯(lián)在一起,提供一致的服務(wù),對外表現(xiàn)為一臺邏輯服務(wù)器。多數(shù)廠商(HP、IBM、微軟、Veritas等)的集群軟件需要各服務(wù)器間采用二層網(wǎng)絡(luò)互聯(lián)。將集群中的服務(wù)器部署于不同數(shù)據(jù)中心,可實現(xiàn)跨數(shù)據(jù)中心的應(yīng)用系統(tǒng)容災(zāi)。
服務(wù)器搬遷和虛擬機動態(tài)遷移
數(shù)據(jù)中心進行擴建或搬遷時,需要將物理服務(wù)器從一個數(shù)據(jù)中心遷至另一個數(shù)據(jù)中心。在此過程中,考慮以下兩個因素,需要在數(shù)據(jù)中心間構(gòu)建二層互聯(lián)網(wǎng)絡(luò):
當(dāng)服務(wù)器被遷至新機房,如未構(gòu)建新老中心間的二層互聯(lián)網(wǎng)絡(luò),則面臨重新規(guī)劃新中心服務(wù)器IP地址的問題,同時還需修改DNS,或修改客戶端應(yīng)用程序配置的服務(wù)器IP.因此,構(gòu)建跨中心的二層互聯(lián)網(wǎng)絡(luò)可保留被遷移服務(wù)器的IP地址,進而簡化遷移過程;
在服務(wù)器搬遷期間,經(jīng)常在給定的時間內(nèi),只能將服務(wù)器群的一部分服務(wù)器遷至新中心,為保證業(yè)務(wù)連續(xù)性,需建立跨中心的服務(wù)器集群,構(gòu)建跨越中心的二層互聯(lián)網(wǎng)絡(luò)可實現(xiàn)服務(wù)器平滑遷移。
與服務(wù)器搬遷類似的情況是"虛擬機遷移".當(dāng)前,一些服務(wù)器虛擬化軟件可實現(xiàn)在兩臺虛擬化的物理服務(wù)器之間對虛擬機做動態(tài)遷移。遷移至另一中心的虛擬機不僅保留原有IP地址,而且還保持遷移前的運行狀態(tài)(如TCP會話狀態(tài)),所以必須將涉及虛擬機遷移的物理服務(wù)器接入同一個二層網(wǎng)絡(luò)(虛擬機在遷移前后的網(wǎng)關(guān)不變),這種應(yīng)用場景要求構(gòu)建跨中心的二層互聯(lián)網(wǎng)絡(luò)。
三、數(shù)據(jù)中心二層互聯(lián)設(shè)計要點
1.前提要素——現(xiàn)網(wǎng)狀態(tài)
選擇數(shù)據(jù)中心二層互聯(lián)方案的前提要素是明確用戶在多個數(shù)據(jù)中心之間具有哪些網(wǎng)絡(luò)資源。網(wǎng)絡(luò)資源的不同直接決定了用戶將采用何種組網(wǎng)方案:
運營商、大型互聯(lián)網(wǎng)企業(yè):裸光纖或DWDM傳輸資源,對應(yīng)RRPP環(huán)網(wǎng)方案或HUB-SPOKE方案;
運營商、大企業(yè)、金融、政府機構(gòu):MPLS網(wǎng)絡(luò),對應(yīng)VPLS組網(wǎng)方案;
中小企業(yè)客戶:IP網(wǎng)絡(luò),對應(yīng)VPLSoverGRE組網(wǎng)方案
2.核心要素——性能
時延
數(shù)據(jù)中心之間二層互聯(lián)是為了實現(xiàn)虛擬機的異地調(diào)度和集群異地應(yīng)用,為了實現(xiàn)這一點,必須滿足虛擬機VMotion和集群存儲異地訪問的時延要求。第一個限制是VMotion同步會話距離。第二個要求是存儲網(wǎng)絡(luò)。DC之間的存儲必須實現(xiàn)同步訪問或是鏡像訪問。
需要注意的是,在VPLS或是IP網(wǎng)絡(luò)環(huán)境中,由于網(wǎng)絡(luò)中存在大量復(fù)雜的應(yīng)用,所以必須通過部署全網(wǎng)QoS來保證DCI互聯(lián)數(shù)據(jù)流的服務(wù)質(zhì)量。流量環(huán)境越復(fù)雜,則QoS配置工作量越大,時延指標(biāo)越難以滿足。VPLS網(wǎng)絡(luò)通常應(yīng)用于企業(yè)或是行業(yè)的專用業(yè)務(wù),流量環(huán)境相對于IP網(wǎng)絡(luò)較簡單,所以在部署QoS方面有一定優(yōu)勢。
帶寬
數(shù)據(jù)中心互聯(lián)的核心需求之一就是保證虛擬機跨DC的遷移。vSphere5.0之前的版本,VMotion對于遷移鏈路的帶寬有明確的要求-帶寬不小于622M;vSphere5.0的版本,VMotion對于遷移鏈路的帶寬不小于250M.
從帶寬資源的分配情況來看,裸光纖或DWDM的帶寬資源最為充足,VPLS和IP網(wǎng)絡(luò)的帶寬資源相對緊張,必須部署全網(wǎng)端到端的QoS優(yōu)先級來保證DCI業(yè)務(wù)流量的帶寬要求。
3.關(guān)鍵要素——HA
數(shù)據(jù)中心二層互聯(lián)的關(guān)鍵因素就是如何提高可用性。提高HA的一個最有效的方式就是設(shè)計備份鏈路、備份節(jié)點。如果結(jié)合提高互聯(lián)帶寬的需求,則建議設(shè)計負(fù)載分擔(dān)的互聯(lián)路徑,在提高互聯(lián)帶寬的同時,也能夠保證系統(tǒng)異常時能夠?qū)崿F(xiàn)業(yè)務(wù)的快速收斂,提高HA指標(biāo)。
以DWDM網(wǎng)絡(luò)為例,建議利用IRF實現(xiàn)DCI鏈路的高HA和鏈路負(fù)載分擔(dān)設(shè)計方案。
在裸光纖或是DWDM互聯(lián)組網(wǎng)方案中,DCI互聯(lián)的兩端PE設(shè)備必須支持IRF,將PE之間的兩條(或多條)鏈路通過聚合(LACP)技術(shù)形成一條邏輯鏈路,會極大的簡化DCI的組網(wǎng)拓?fù)洹M瑫r,這兩條HA鏈路的帶寬會得到100%的利用,達到1:1的負(fù)載分擔(dān)效果。
四、數(shù)據(jù)中心二層互聯(lián)方案設(shè)計
1.基于裸光纖或DWDM線路的二層互聯(lián)
裸光纖或DWDM二層互聯(lián)方案需要用戶在現(xiàn)網(wǎng)中擁有光纖或傳輸資源,對用戶要求較高,但從使用的角度來看,裸光纖或DWDM方案的性能是最優(yōu)的。
基于裸光纖或DWDM線路的二層互聯(lián)方案有兩種選擇:HUB-SPOKE方案和RRPP環(huán)網(wǎng)方案。前者的優(yōu)點是基于最短路徑轉(zhuǎn)發(fā),所以轉(zhuǎn)發(fā)效率高;后者的優(yōu)點則是環(huán)網(wǎng)天然的轉(zhuǎn)發(fā)路徑冗余設(shè)計,所以HA性能較高。
Hub-Spoke組網(wǎng)方案
通過裸光纖或是DWDM將多個(例如4個)數(shù)據(jù)中心互聯(lián)。為了方便擴展更多的數(shù)據(jù)中心節(jié)點,一個最常用的方案就是采用HUB-SPOKE組網(wǎng)模型,即通過一個核心節(jié)點與各數(shù)據(jù)中心的匯聚層互聯(lián)。在邏輯結(jié)構(gòu)上,多個中心與核心節(jié)點構(gòu)成了一個Hub-Spoke的星形拓?fù)?,其中核心?jié)點為HUB,各中心匯聚層為Spoke.
在Hub-Spoke組網(wǎng)環(huán)境中,核心節(jié)點是最重要的,關(guān)系到全網(wǎng)是否能正常運轉(zhuǎn),是保證多數(shù)據(jù)中心HA的關(guān)鍵因素。如何提高核心節(jié)點的HA性能?一個最重要的設(shè)計理念就是在核心節(jié)點應(yīng)用IRF技術(shù),將兩臺設(shè)備通過IRF技術(shù)形成一臺設(shè)備,將核心設(shè)備故障異常的收斂時間從幾十秒降低到毫秒級,也就是說可以將系統(tǒng)的HA性能提高將近兩個量級。這一點對于Hub-Spoke組網(wǎng)方案是非常重要的。