熱門話題

【 數碼人白皮書1】從運維到運營–物聯網如何幫助數據中心管理者走出困境?

作者: 劉全   李晶晶

序言

數據中心運維管理是一項關鍵、枯燥、高重復性的工作。面對數據中心的高速發展,傳統的運維管理方式正面臨著人力成本高昂、管理手段落后、管理效率低下等困境。隨著物聯網和數字智能技術的逐漸成熟,我們發現:物聯網和數字智能技術正在深刻改變數據中心現有的運維方式和運維流程,將徹底釋放數據中心的所有潛能。

發表于

一、數據中心運維整體發展趨勢分析

全球數據中心發展重心正從規?;ㄔO向精細化運營轉變。

隨著亞馬遜、微軟、阿里、騰訊、華為、中國移動、中國電信等巨頭的進入,國內云服務市場競爭加劇,各云服務商在市場拓展的同時會持續降低運營成本。

華為云&大數據產品線總裁馬力在《智能運維,云數據中心運維的未來之路》一文中指出,未來的云數據中心運維必須:

  • 提高運維效率:虛擬化技術和眾多開源技術的引入使得運維變得越來越復雜,傳統人工運維模式處理速度慢、出錯概率高。此外,傳統人均50~100臺設備的維護效率,在大規模云化環境下,需要投入大量人力。

  • 保持低運營成本:傳統IT的資源使用率通常小于20%,在云化后資源使用率有所提升,但是個性化、按需彈性需求導致資源碎片化、負載不平衡以及擴容規劃不精準,可能會造成整體資源利用率并沒有達到規劃目標,運維成本居高不下。

  • 硬件即插即用,定期下線:隨著數據中心規模的增長,手工為主的硬件識別與安裝方案將無法支撐資源的快速上線、擴容與下線。通過即插即用技術,只需要使用低技能人員將設備上架、上網和上電,運維系統就會根據該硬件的預期狀態自動化完成端到端硬件系統的部署和上線;與此同時,通過云化隔離技術,硬件出現故障時也不再需要立即解決,只需讓低技能人員定期替換即可。

由此可見,不管是從上層業務運行的實際需求來看,還是從數據中心運營商自身競爭的需要來看,更高的運維效率、更低的運營成本將是數據中心運維技術發展的最主要和最直接的驅動力。

二、數據中心運維技術發展的歷史與現狀

1、阻礙數據中心運維技術快速發展的歷史原因

盡管數據中心的運維如此重要,但長期以來,相關運維的技術和手段仍然比較落后,“重建設,輕運維”成為行業普遍現狀。甚至在很多人眼中,運維=酷炫的UI界面+超大拼接屏。

數據中心的運維,尤其是基礎設施運維長期以來之所以未能得到大規模的普及,筆者分析主要以下原因:

  • 技術落后,早期基礎設施運維軟件多來自UPS、空調等設備廠家,他們采用動環(動力設備和機房環境)管理的理念。廠家大多對IT類設備缺乏了解,相關技術也主要來自運營商對通信機房的運維要求,明顯滯后于IT技術的發展;

  • 觀念落后,早期IDC管理脫胎于電信運營商的“機房維護”思路,偏重于設備安全和日常維護,對資產(ROI)的價值認識不足,做不到精細化運營與管理;

  • 需求不明顯,早期機房數量規模較小,人工維護成本低,運營管理團隊采用自動化管理方式的意愿不強烈;早期機房設備種類不多,運行業務簡單,管理的復雜程度不高;早期數據中心本身并未成為社會生產與生活的核心,故障后造成的損失也較低;

  • 系統架構簡單,早期IT系統,普遍采用“煙囪式”架構,底層硬件與運行業務深度耦合,業務邏輯和物理邏輯有對應關系,故障后容易查找,定位簡單,可以快速進行維修;

除此之外,還有國內長期以來對軟件價值的低估,用戶需求不明確帶來的設計變更附加成本等。正是因為以上這些原因,在大型云數據中心出現之前的“互聯網1.0”時代,智能運維技術和實踐一直未得到用戶普遍的重視。

2、目前的現狀:數據中心數字化、精細化、自動化運營已形成行業共識。

隨著大型數據中心的增多,云計算相關技術的成熟,數據中心運維技術也日益受到大家的重視。

究其原因可以歸納如下:

  • 物聯網技術發展成熟。物聯網技術在物流、安防、智能工廠等領域的廣泛應用推動了相關技術的成熟。而數據中心處于“燈下黑”狀態,大多數機房設備仍然處于手工+表格處理的“啞設備”管理狀態,數字化連接的價值沒有真正發揮出來。物聯網技術在數據中心的應用將進一步激發和挖掘出這些設備資產的價值;

  • CT機房互聯網/物聯化趨勢。受互聯網影響,“數據中心云化”“軟件定義數據中心”成為主流技術發展趨勢。而傳統CT的維護理念,也逐漸向物聯網化的運營理念轉變,精細化、自動化、智能化管理成為新需求。如某運營商對運維機器人的引入、互聯網自建數據中心對人工智能技術的引入、對U位級資產管理技術的實踐等。

  • 市場需求快速增長。近年來的數據中心逐漸呈現“兩極分化”趨勢:即中型數據中心快速減少,一方面超大規模數據中心不斷出現(云數據中心需求),一方面微型數據中心快速增長(邊緣計算需求)。對于超大型數據中心,服務器規模動輒數萬甚至數十萬臺,人工方式的資產管理已無法滿足實際需求,急需自動化的管理方案;對于小微型數據中心(多是企業分支機構、連鎖商超等行業用戶),又大多缺乏專業運維人員,對易安裝、已維護、可實現遠程無人化管理的運維技術也有迫切需求。

  • 云數據中心架構變化帶來的影響。云計算技術的出現,使得傳統的“煙囪式”IT架構被打破,計算、存儲、網絡統統變成了資源池,上層應用和IT硬件實現了解耦。彈性獲取,隨需擴容、靈活應用成為業務層面對IT資源的主要訴求。

這對IT硬件的影響主要有兩方面:IT硬件的重要性下降(數據有備份),更換升級等操作更加頻繁(壞了就換),在數據中心的全生命周期內,IT硬件資產管理的工作量大幅提升(同一U位可能不同時間段安裝不同設備運行不同程序),依賴人工已經很難管理;

  • 人力成本快速升高。據統計,中國60歲以上人口已超過41億人,我國已全面進入老年化社會,勞動力成本上升是所有企業都要面對的問題。而數據中心的運維工作責任重大,通常涉及到多個領域學科知識,對人員技能和素質要求都比較高?!叭肆Τ杀咎摺保ㄒ痪€城市)、“招不到人”(二三線城市)成了很多運維主管頭疼的問題。

  • 其他因素,比如電信運營商利潤下滑,傳統IDC大戶對能夠降低運營成本(維護人力、電費等)的技術興趣濃厚;各設備廠家的持續發力,對智能化基礎設施的概念推廣(主要體現在自動化運維、U位級精細化資產管理等方面);全行業數據安全意識的提升,導致越來越多用戶(尤其是高端用戶)對其IT資產安全的更加重視(自主可控、去IOE、國產化等要求),IT設備的變更、定期盤點、自動告警受到重視。

三、從“運維”到“運營”的觀念轉變,省錢才是硬道理

如上所述,數據中心的運維工作日益受到業界的重視,各種新技術也層出不窮,那么什么樣的運維技術才是好技術,如何進行評判呢?筆者認為,只有真正能為用戶創造價值的技術才能獲得認可并實現規?;瘧?。換言之,能省錢(甚至賺錢)的技術就是好技術。

筆者認為,從運維(核心是可靠不出錯)到運營(核心是可靠還省錢/賺錢)的變化,是在數據中心從“企業成本中心”向“企業生產中心”轉變的過程中,運維人員必須經歷的觀念轉變過程。

那么,什么樣的數據中心才是好(可靠又省錢)的數據中心呢?拋開“風火水電”等基礎設施的架構不談,僅從運營的層面來看,筆者認為需要考慮以下問題:

1、資產盤點問題:資產繁多、管理復雜

數據中心涉及多種產品和設備,對運維人員技能要求較高。同時資產管理和盤點工作浪費運維人員大量時間,造成數據中心運維人力開支居高不下。

2、容量管理問題:管理粗放、盈利困難

對很多運營型數據中心來說,因規模較大,人工管理方式難以根據用戶的設備數量、功耗、制冷等要求及時查詢到合適的安裝位置,造成業務不能及時上線,為企業帶來重大損失。數據中心租賃市場競爭日趨激烈,粗放的管理模式造成運營成本過高,市場競爭力下降,侵蝕投資者利益。

3、故障定位問題:故障定位、維護困難

隨著數據中心重要性的上升,由數據中心故障帶來的企業損失也逐漸升高,所以故障恢復時間變得至關重要。但傳統數據中心,采用人工管理方式,一旦出現故障需要花費大量時間進行排查(大型數據中心服務器規模高達數十萬臺)。運維人員80%時間都花費在定位故障上面,效率十分低下。

4、資產安全問題:U位級物理安全難以保障

因數據安全等因素,很多行業都對數據中心安全級別有嚴格要求。同時據Uptime報告顯示,數據中心超過70%的故障是由于人為操作失誤造成。所以對運維人員的分級、分區、分域授權至關重要。按空間劃分,數據中心資產的物理安全等級可分為機房級、模塊級(微模塊)、機柜級、U位級。大多數的數據中心可以做到機房級物理安全(機房門禁),少部分可以做到機柜級物理安全(物理或電子門鎖等形式)。只有極少數數據中心可以做到U位級的物理安全保障,在維護人員對機柜內部等某一臺IT設備操作時及時給出安全告警信息。

圖片來源:數碼人U位資產物聯方案

綜上所述,可以總結出數據中心用戶在運營層面的一些訴求:

  • 機柜容量管理:實時監控機柜空間容量信息,提升空間利用率(減少機柜租金)

  • 設備變更自動化:資產變動信息自動上報(降低人工開支)

  • 數據準確性:資產數據100%準確(減少人工排查開支)

  • 資產盤點自動化:大規模資產設備快速自動化盤點,無需人工(節省運維人力)

  • 快速定位:可以快速準確找到故障設備(減少故障排查時間)

  • 更精確的資產保護:提升U位級資產物理安全,非法事件自動告警(資產和數據安全)

、物聯網技術在數據中心的部分應用

筆者認為,相比AI、大數據等技術,物聯網技術或許將首先在數據中心的運營工作中得到規?;瘧?/span>。比如很多人都知道,谷歌的數據中心應用了神經網絡等AI技術來實現能耗管理,但到底是如何實現的,效果如何,能否推廣,卻鮮有資料流出。不可否認,大型高科技公司和互聯網公司本身技術和人才積累雄厚,可以在AI、大數據等方面進行嘗試和創新應用。但對大多數的數據中心用戶來說,物聯網技術可能會更早成熟并進入實際應用階段。

據了解,目前一些數據中心,已經將物聯網應用納入到下一代數據中心規劃中。不少基于數據中心的物聯網技術也已經進入規?;瘧秒A段,具體來看,主要有以下幾個方面:

物聯網在資產安全方面的應用

  • 通過傳感器對機房基礎設施進行監控,如電池、UPS、空調等。

  • 通過對設備狀態的監控對生命周期進行預測,甚至在故障發生前做到提前預警。

  • 通過資產電子標簽對IT設備進行管理,可以精確定位到每臺設備所處的區域甚至U位,在未授權的設備下架或將標簽破壞的情況下,可以在現場和后臺系統發出報警提醒。

圖片來源:騰訊T-block U位智能管理

物聯網在容量和能耗方面的應用:

  • 通過傳感器實時監控機柜U位物理空間利用率,自動監控IT設備上架、下架與遷移,幫助用戶提高機柜空間利用率;

  • 通過傳感器實時監控數據中心的能耗、溫度、制冷等信息,幫助用戶合理規劃設備部署,降低數據中心的整體能耗;甚至通過更精確的U位級設備管理,可以實現機柜內部微環境的監控;

圖片來源:某機房資源可視化管理視圖

物聯網在自動化運維方面的應用

  • 機房大量設備的上架信息錄入占用大量人力。利用U位資產物聯系統自動錄入設備信息,信息自動上傳到后臺,代替大量重復性手工錄入工作,解放運維人力;

  • 當設備發生故障時,往往發生連鎖反應,產生大量告警,而后臺很難判斷實際故障設備。利用物聯網技術,可以做到自動定位故障設備,維護人員可以準確獲取故障設備所在區域、機柜、甚至U位;

結語

除了上述功能之外,利用物聯網技術還可以實現諸多功能,這里不做一一贅述。筆者也希望未來有更多的新技術能在數據中心領域得到實際應用,希望更多的廠家和技術人員為實現數據中心高效、數字化、自動化、精細化運營作出貢獻。


數碼人MC-RFID定位和感知專利技術突破了困擾該領域20多年的技術瓶頸,助力全球數據中心實現數字化轉型。2019年獲得國家科技部頒發的數據中心科技成果獎。2020年入選畢馬威“芯科技”新銳企業50榜單。

website qrcode