隨著應用與技術的發(fā)展,數(shù)據(jù)中心的建設規(guī)模出現(xiàn)兩極分化的特征:一方面,業(yè)務集中與資源共享等趨勢推動數(shù)據(jù)中心向規(guī)?;较虬l(fā)展,另一方面,小型數(shù)據(jù)中心在解決資源瓶頸的問題以及提供差異化服務方面的作用日趨明顯。
IT系統(tǒng)的集中規(guī)?;ㄔO與垂直化分布特征,對基礎設施的管理提出了全新的要求,這些要求集中體現(xiàn)在融合統(tǒng)一、持續(xù)高可用、經(jīng)濟性運營、可服務等方面,并已成為數(shù)據(jù)中心可持續(xù)發(fā)展的關鍵KPI,而以此為基礎的數(shù)據(jù)中心基礎設施管理(DCIM)成為了精細化運營建設的關鍵內(nèi)容。
1 為何需要建設精細化運營
早期的數(shù)據(jù)中心管理側重“監(jiān)測”,管理對象單一,網(wǎng)絡簡單,煙囪化管理特征明顯,無法支撐業(yè)務的可持續(xù)發(fā)展。物聯(lián)網(wǎng)、M2M、云技術的發(fā)展,使得大量設備連接成為可能,基礎設施日趨整合,數(shù)據(jù)規(guī)模、復雜性增加,呈現(xiàn)出如下特征:
1、領域產(chǎn)業(yè)鏈聚合,海量硬件與軟件連接,資源的統(tǒng)一管理是基本訴求;
2、保障連續(xù)供電、連續(xù)供冷,構建內(nèi)耗最小、功效大的資源服務中心以應對資源集中、成本控制帶來的挑戰(zhàn),成為IDC建設、過程運營需要面對的共同課題;
3、供電、冷卻能力、機柜空間等資源的大化利用,成為降低TCO、延長數(shù)據(jù)中心建設周期的有效方法;
4、同時,DCIM管理與工具快速的滲透到數(shù)據(jù)中心基礎設施管理的E2E流程中,為自動化、智能化的高效運維與精細化管理提供了基本的技術條件;
建設完整的數(shù)據(jù)中心涉及基礎設施,技術與系統(tǒng)架構,應用與數(shù)據(jù),業(yè)務與流程,組織與運營等全方位內(nèi)容。藉由基礎設施的運營管理,減少數(shù)據(jù)中心運營和管理成本,提高數(shù)據(jù)中心的易用性、持續(xù)可用性和靈活擴展性,保護投資、提升回報率,幫助用戶實現(xiàn)IT創(chuàng)新甚至業(yè)務創(chuàng)新,是IDC精細化運營的基本訴求。
2 滿足要求的精細化運營框架
數(shù)據(jù)中心建設是不同領域產(chǎn)業(yè)鏈的整合,基礎設施呈現(xiàn)出異構、領域差異化特征,需構建一個普適的管理模式,實現(xiàn)統(tǒng)一、融合的管理,以確保業(yè)務發(fā)生變化時,對系統(tǒng)進行自動調優(yōu),實現(xiàn)高效、準確的管理。
2.1 統(tǒng)一、融合的管理
技術、業(yè)務、流程的發(fā)展和演進,推動數(shù)據(jù)中心管理目標和功能不斷發(fā)展。
數(shù)據(jù)中心的基礎設施管理已經(jīng)從基本的動環(huán)管理演進為DCIM,且范圍逐漸延伸到BMS、IT資源領域。
管理體系已經(jīng)由孤立的資源監(jiān)控、系統(tǒng)及網(wǎng)絡,向著統(tǒng)一、融合,面向服務、流程自動化方向發(fā)展。
管理功能從數(shù)據(jù)收集、發(fā)現(xiàn)、實時監(jiān)控,向歷史數(shù)據(jù)分析、決策分析、自動響應方向發(fā)展。采集實際的數(shù)據(jù)以及對數(shù)據(jù)的分析、統(tǒng)計、報告,給出執(zhí)行策略是差異化競爭力的關鍵。
統(tǒng)一、融合的管理,要求有統(tǒng)一的數(shù)據(jù)模型,實現(xiàn)多源數(shù)據(jù)相同框架的管理;要求基于開放的平臺與體系架構,為系統(tǒng)管理工具選型提供更高的靈活性。
2.2 實現(xiàn)與業(yè)務關聯(lián)的架構
IDC機房管理系統(tǒng)的目標是保障基礎設施的持續(xù)高可用性,為業(yè)務系統(tǒng)安全、可靠地運行提供保障。
調查發(fā)現(xiàn),在眾多的機房中,盡管已經(jīng)部署了一定的監(jiān)控工具,但是這些監(jiān)控工具都是針對某一個系統(tǒng)或資源設計的,系統(tǒng)相互獨立,無法很好的集成(如制冷系統(tǒng)、供配電系統(tǒng)、服務器網(wǎng)絡設備之間的管理往往由不同的廠家提供,相互獨立)。
由于缺乏集成的管道和框架,其監(jiān)控的管理信息不能共享,導致誤報警和報警重復等現(xiàn)象。同時,由于這些工具都只是面向基礎設施的監(jiān)控,即使發(fā)現(xiàn)問題,也不能將問題與真正的業(yè)務聯(lián)系起來,也就不能判斷此問題對業(yè)務的影響,同時無法判斷解決問題時的優(yōu)先級順序,使影響關鍵業(yè)務的問題被延遲,甚或被忽略,從而無法達成SLA的關鍵訴求。
因此,一套能實時監(jiān)控系統(tǒng)、部件運行狀態(tài),準確地判斷對業(yè)務影響的系統(tǒng)是實現(xiàn)數(shù)據(jù)中心智能化管理的基礎。要實現(xiàn)基礎設施的關聯(lián)管理,提升運營服務水平,要求:
1、系統(tǒng)能夠將基礎設施的管理與業(yè)務流程連接;
2、系統(tǒng)能夠將所有不同的管理工具進行統(tǒng)一和集成,實現(xiàn)信息共享;
3、系統(tǒng)能夠根據(jù)共享的信息,建立起業(yè)務的關聯(lián)視圖。
精細化的運營要求管理工具可將自動化和智能化融入到業(yè)務流程中,實現(xiàn)主動式監(jiān)測和管理,專注于滿足業(yè)務增長提出的可用性、容量規(guī)劃和資源利用效率需求。
2.3 基于ITIL的最佳實踐
基礎設施管理解決方案不僅關注基礎設施本身,而且還包括組織內(nèi)部的組織流程、指令規(guī)范、 業(yè)務。 如何將組織流程、規(guī)范及業(yè)務融合到管理系統(tǒng)中,實現(xiàn)數(shù)據(jù)整合,提升運營服務品質是ITIL的基本理念,是數(shù)據(jù)中心對外提供服務的基礎。
ITIL提供了一個業(yè)務與技術相結合的框架,是IT服務管理的成功實踐總結、指導,已經(jīng)成為事實上的行業(yè)標準,借鑒ITIL,運營可以以一種受控、有序的方式向最終用戶提供服務。
ITSM是建立在ITIL基礎上的數(shù)據(jù)中心管理與運營服務系統(tǒng),包括如下幾個階段:基礎監(jiān)控、融合集成、主動預防、自動優(yōu)化等,是一個漸進過程,處于不斷的優(yōu)化系統(tǒng)與技術的動態(tài)演進中。
圖 1 基于ITIL實踐的IDC管理階段模型
基礎監(jiān)控,是IDC管理的起點,通常以數(shù)據(jù)采集、故障監(jiān)控和修復重大故障所需時間作為評估標準,往往是事件觸發(fā)式的、被動式的。
在融合集成階段,對基礎設施管理評估標準為:所管理資源的可用性、在故障管理系統(tǒng)中關閉故障所需時間。要改善這些評估指標,離不開對業(yè)務流程化、最佳實踐方案的反饋與循環(huán)改進。
在主動預測階段,保障業(yè)務系統(tǒng)的可用性和SLA,是支撐主動、高效管理的動因。對資源的性能進行評估、分析,并利用相關領域的技能與知識,對系統(tǒng)資源性能、問題、容量做主動式管理,對資源的優(yōu)化配置提出建議,是該階段實踐的主要內(nèi)容。
自動優(yōu)化階段,系統(tǒng)會自動調整資源配置,以優(yōu)化性能。業(yè)務策略、業(yè)務優(yōu)先級及SLA會支配基礎構架優(yōu)化的行為,如基于業(yè)務均衡的IT資源(VM)與基礎設施層的高效節(jié)能聯(lián)動、基于容量管理的負載均衡與資源優(yōu)化配置等。
自主階段,使用先進的成本與收益模型、性能與業(yè)務響應及時性等來實現(xiàn)業(yè)務自動化保障、業(yè)務快速部署、資源的大化利用,實現(xiàn)IDC建設的彈性擴展。
3 持續(xù)構建精細化運營系統(tǒng)
數(shù)據(jù)中心基礎設施精細化運營的真正潛力在數(shù)據(jù),數(shù)據(jù)中有效信息分布在不同的解決方案與DCIM工具中,信息的整合貫穿運營的每個環(huán)節(jié),是實現(xiàn)精細化運營、構建競爭力、改變市場格局的有效手段。實現(xiàn)數(shù)據(jù)中心的精細化運營,可遵從ITIL的服務理念,圍繞數(shù)據(jù)中心持續(xù)高可用、資源大化利用以及服務運營持續(xù)構建。
3.1 高效,持續(xù)高可用
通過系統(tǒng)的監(jiān)控和管理,確?;A設施的持續(xù)高可用性;通過數(shù)據(jù)的采集與分析,提升資源的利用率;通過自動化的運維模型,提升管理效率,降低成本,實現(xiàn)業(yè)務服務的敏捷化。
精細、廣泛的管理
基礎設施的精細化、廣泛的管理,建立在統(tǒng)一、完備的管理模型基礎之上,DMTF發(fā)布的通用信息模型CIM框架提供了操作系統(tǒng)、應用程序、網(wǎng)絡和設備管理的基本模型,但要實現(xiàn)基于業(yè)務、應用的管理,則需要對模型做合適的擴展,以滿足運營的基本要求。
在構建高效、持續(xù)高可用的運營系統(tǒng)的過程中,滿足ITSM管理要求統(tǒng)一的數(shù)據(jù)模型的基本要求包括:
1、自動的數(shù)據(jù)采集,設備管理、傳感網(wǎng)絡可持續(xù)采集和集中處理數(shù)據(jù)。
2、具有虛擬現(xiàn)實的建模能力,包括IT與基礎設備在內(nèi)的資源,可準確的反應現(xiàn)場的配置。
3、所見即所得,可視化的變更、配置,深入到CRAC、行、機架等級,實時可見的能力,可避免主觀臆斷的移動、添加、以及改變數(shù)據(jù)中心的配置。
4、可持續(xù)跟蹤IT資產(chǎn)的財務數(shù)據(jù)(購買日期、成本)以及物理數(shù)據(jù)(機架中的位置)的變化,實現(xiàn)生命周期內(nèi)的資產(chǎn)管理。
5、數(shù)據(jù)中心的能力規(guī)劃與預測,集中式的電源、散熱、空間、網(wǎng)絡占用計算可預知機架能力變化,提高資產(chǎn)利用率。
借助統(tǒng)一的數(shù)據(jù)模型、組件化及網(wǎng)絡構建能力,DCIM能夠管理分散的、不斷增加的成組應用,支持、收集開局、擴容、遷移、退網(wǎng)等場景下的配置、變更信息,并進行相關處理,提供相關信息,支持決策。用戶可在一個集中可視化視圖中,以一種更直觀、有效的方式來反映當前部件狀態(tài)并執(zhí)行控制任務。