數據中心基礎設施的運維管理,是指確保數據中心環境能夠滿足計算機設備正常運行所需的各類設施、設備的運行能夠滿足客戶SLA的要求,包括機房供配電系統、空調系統、消防系統、安保系統等等。隨著大型互聯網數據中心指數級規模的快速增長,各項互聯網業務對數據中心的依賴性越來越高,且數據中心自身技術特點也在不斷發生變革,因此基礎設施運營商需要針對基礎設施進行更加趨向精細化的運營管理。
數據中心的高效、可靠的運行管理,從大的方向來看,需要從點、面兩個維度去管理,以點帶面并面面俱到。
從點的管理角度看,運維管理需要深入解剖每個設備的各種子模塊的運行狀態,分析各個子模塊的運行參數,并建立參數標桿,實現主動運維管理。
從面的管理角度看,運維管理需要覆蓋數據中心的所有專業系統,并厘清各個專業系統的邏輯和勾連關系。
為了從點和面做好數據中心的全生命周期管理,聚力景程結合自身多年的運維經驗,把運維管理切分成幾個核心模塊進行細化管理,這些模塊包括:
數據中心運維
運維管理團隊+品質管理團隊+信息化管理團隊
D
聚力景程運維管理理念
-
安全管理
- 事件處理
- 問題管理
- 變更管理
- 人員出入管理
- 設備出入管理
- 知識管理
-
人員管理
- 值班安排
- 考勤管理
- 員工勝任力級別管理
- 績效管理
- 行為分析&情緒化管理
- 星級管理(激勵管理)
- 培訓考試管理
- 外來人員行為規范管理
-
作業管理
- 作業內容管理
- 作業計劃安排(維保計劃、演練計劃
- 預防性維修計劃FMEA)
- 作業工單管理(搶修作業管理、臨時
- 性人物單)
-
成本管理
- 電費成本
- 水費成本
- 燃油成本
- 取暖成本
- 備品備件成本
- 耗材管理成本
- 其他成本:人工時等
-
供應商管理
- 落實合同與供應商交付的匹配
- 落實現場執行管理
- 落實KPI的考核
-
客戶管理
- 客戶滿意度調查
- 客戶問題跟進管理
- 服務交付管理
- 客戶問題維護
-
計費管理
- 測試機柜管理
- 上電機柜
- 帶寬管理
- 超電量管理
-
設備管理
- 設備基本屬性管理
- 設備靜態參數管理
- 設備運行參數管理
- 設備級聯關系管理
- 設備群集關系管理
數據中心的運維架構體系
數據中心的整體運維組織架構應由三大塊組成,即運維管理團隊、品質管理團隊和信息化管理團隊。這三個管理團隊相伴相生,缺一不可,運維管理團隊確保日常的制度執行和快速響應,品質管理團隊確保運維的質量督察和風險管控,信息化管理團隊確保運維體系標準化、可復制和度量化全面落地。

-

運維管理團隊
主要負責日常運維的管理和執行,含一線和二線的運維支持。主要負責現場運維、應急處置、設施設備維護等工作。

-

信息化管理團隊
主要負責運維管理和大數據分析平臺的研發與日常維護。

-

品質管理團隊
由高級運維和精益化管理團隊組成,高級運維主要負責各個數據中心的驗證、重大故障處理和預防性維修工作,作為三級運維支持對整個運維管。
數據中心高階運維服務
高級運維和品質監察

高級運維
高級運維又稱高維工程師,分暖通和電氣兩個專業。其中暖通高維工程師持有大型制冷設備維修證,有二十多年的制冷設備維修經驗,能主導修復大部分設備故障;電氣高維工程師均有二十年以上電氣經驗,能主導UPS電池放電測試、柴油發電機年度維保工作。
高維工程師均有多個項目的機房驗證驗收工作經驗,有豐富的問題發現能力和當責意識,促使驗證驗收工作保質保量按進度完成。
高維工程師均有多個項目的機房驗證驗收工作經驗,有豐富的問題發現能力和當責意識,促使驗證驗收工作保質保量按進度完成。

品質監察
品質監察主要負責日常行為規范及現場6S的檢查,按照運維管理制度要求開展定期和不定期的飛行檢查,結合現場、監控和平臺三種方式,主要對以下方面進行檢查:
· 運維記錄:設備運行記錄、能效記錄、巡檢記錄、值班日志等
· 行為規范:工作紀律、著裝規范等
· 6S管理:機房整潔、物品規范擺放等
· 消防安全:消防巡檢記錄、消防器械檢查、消防隱患排查等
· 文檔資料:文件清單核對,查閱、復印記錄檢查、現場資料有效性確認
每月匯總高維和監察的問題發現,輸出月度監察報告,內容包括但不限于:問題描述、現場圖片、糾正意見和期限。
每季度對客戶滿意度進行測評,收集客戶意見,落實并跟進糾正措施和結果。
· 運維記錄:設備運行記錄、能效記錄、巡檢記錄、值班日志等
· 行為規范:工作紀律、著裝規范等
· 6S管理:機房整潔、物品規范擺放等
· 消防安全:消防巡檢記錄、消防器械檢查、消防隱患排查等
· 文檔資料:文件清單核對,查閱、復印記錄檢查、現場資料有效性確認
每月匯總高維和監察的問題發現,輸出月度監察報告,內容包括但不限于:問題描述、現場圖片、糾正意見和期限。
每季度對客戶滿意度進行測評,收集客戶意見,落實并跟進糾正措施和結果。
風險評估

配合數據中心運維SOP/MOP/EOP審核,如模擬一路市電斷電、兩路市電斷電、ATS切換、斷路器跳閘、柴油發電機房日常開機、冷機直供模式、板換操作、精密配電柜操作等流程。不符合設計原則和規范,影響功能、容量、冗余要求的予以修正。
參與日常運維工作中發現的技術問題,為進一步提高數據中心基礎設施運維質量而制定和落實相應解決方案。針對監控、巡檢中發現的故障、報警等超過運維現有技術處理能力的,按照事件處理流程或通報機制要求,協助重大風險評估,提供解決措施,理論歸納后予以標準化輸出。
參與日常運維工作中發現的技術問題,為進一步提高數據中心基礎設施運維質量而制定和落實相應解決方案。針對監控、巡檢中發現的故障、報警等超過運維現有技術處理能力的,按照事件處理流程或通報機制要求,協助重大風險評估,提供解決措施,理論歸納后予以標準化輸出。
技術培訓
運維&管理團隊人才建設,作為數據中心運維的專業工程師管理人才,對整個數據中心的系統架構以及本專業的知識體系必須有一個清晰的認識,良好的專業知識對于風險識別和風險處理,以及未來節能降耗起著重要的決定性的作用。
聚力景程技術或高維團隊將定期(不定期)對運維部管理和一線操作人員進行基礎和專題理論培訓,并組織相應考試考核。基礎培訓內容包括供配電基礎理論、電氣負荷計算原則、斷路器/電纜比選、配電箱/UPS選型計算、空調理論知識、空調負荷計算、冷機/水泵/板換選型要點、BA基礎知識、典型架構、控制邏輯策略、氣體和水消防常用系統介紹、建筑結構裝修基礎知識等。
專題培訓包括系統設計理念介紹(容量、冗余、功能),電氣系統架構、制冷系統架構,冷站群控操作邏輯、同行設計案例運維相關技術分享、常用機房節能改造方案介紹實操。
另外針對每階段出現頻次較高的問題,以及運維工作需求,配合高維,聯合開展問題分析處理,以及點對點專題技術指導。
聚力景程技術或高維團隊將定期(不定期)對運維部管理和一線操作人員進行基礎和專題理論培訓,并組織相應考試考核。基礎培訓內容包括供配電基礎理論、電氣負荷計算原則、斷路器/電纜比選、配電箱/UPS選型計算、空調理論知識、空調負荷計算、冷機/水泵/板換選型要點、BA基礎知識、典型架構、控制邏輯策略、氣體和水消防常用系統介紹、建筑結構裝修基礎知識等。
專題培訓包括系統設計理念介紹(容量、冗余、功能),電氣系統架構、制冷系統架構,冷站群控操作邏輯、同行設計案例運維相關技術分享、常用機房節能改造方案介紹實操。
另外針對每階段出現頻次較高的問題,以及運維工作需求,配合高維,聯合開展問題分析處理,以及點對點專題技術指導。
重大故障及技改方案支撐
運維方面,對于數據中心發生的重大故障,聚力景程提供高級運維工程師或技術人員的現場支持。技術方面,重點支持機房涉及到功能、容量、冗余調整的技術改造需求。從建筑平面規劃,電量、冷量冗余,及現有機房業務影響,系統可維護性,施工可行性等方面綜合考慮,提供技術改造方案、施工圖紙、工程量清單,設備采購技術規格書等。若涉及變更服務,需配合運維提交詳細的變更方案供客戶提前審核。
機房維護管理人員定期對機房電氣設備和空調的運行情況進行總體評估,對接近閾值的參數提前進行評估和預警,對運維提出的性能容量優化相關的建議,更新置換方案等提供審核評估意見。
機房維護管理人員定期對機房電氣設備和空調的運行情況進行總體評估,對接近閾值的參數提前進行評估和預警,對運維提出的性能容量優化相關的建議,更新置換方案等提供審核評估意見。

能效管理及優化
聚力景程對能效管理的理解是 SLA達標前提下的能效最優化,能效管理的核心是過程管控。
PUE=數據中心生產總用電量/IT設備用電量,PUE調優的方法根本上就是減少分子(數據中心生產總用電量)
PUE=數據中心生產總用電量/IT設備用電量,PUE調優的方法根本上就是減少分子(數據中心生產總用電量)

調優方法
通過設計依據以及運維實際經驗,制定合理的冷機制冷模式,部分自然冷卻模式、完全自然冷卻模式的標準運行工況;
· 制冷系統:冷卻塔風機頻率,水泵頻率,冷卻、冷凍水溫控制,精密空調風機頻率、水閥、溫度控制,冷凍機組COP調優,新風系統控制;
· 電氣系統:照明管控,設備節能模式啟用如UPS、HVDC;
· 其他:維護工作如管道過濾器的清洗,冷卻塔的清洗,空調濾棉的更換,機房密閉封堵;
· 新技術:直接風冷技術、間接風冷技術、板冷技術,液冷技術。
· 制冷系統:冷卻塔風機頻率,水泵頻率,冷卻、冷凍水溫控制,精密空調風機頻率、水閥、溫度控制,冷凍機組COP調優,新風系統控制;
· 電氣系統:照明管控,設備節能模式啟用如UPS、HVDC;
· 其他:維護工作如管道過濾器的清洗,冷卻塔的清洗,空調濾棉的更換,機房密閉封堵;
· 新技術:直接風冷技術、間接風冷技術、板冷技術,液冷技術。

能效管理優化方案
確定調優目標:計算項目在不同自然氣候條件下,不同IT負載比率下的理論PUE值;
數據采集分析:運維平臺采集設備運行參數,用電量,通過相應的計算劃分為制冷系統用電量、電氣系統損耗、末端空調用電量、其他用電量四大塊,與理論值進行對標
分析生成報表,從而發現問題點;
現場實施:根據問題點,現場調查,制定相關調優措施,組織機房運維,設備廠商實施調優;
效果評估:實施完成后,進行數據分析,評估調優效果是否達到預期目標;
貫徹執行:總結調優方案,對機房現場運維進行培訓,能效管理意識,能效管理調優方法。
數據采集分析:運維平臺采集設備運行參數,用電量,通過相應的計算劃分為制冷系統用電量、電氣系統損耗、末端空調用電量、其他用電量四大塊,與理論值進行對標
分析生成報表,從而發現問題點;
現場實施:根據問題點,現場調查,制定相關調優措施,組織機房運維,設備廠商實施調優;
效果評估:實施完成后,進行數據分析,評估調優效果是否達到預期目標;
貫徹執行:總結調優方案,對機房現場運維進行培訓,能效管理意識,能效管理調優方法。



