機房360首頁
                        當前位置:首頁 ? 廠商動態 ? 百萬級服務器數據中心如何管理?騰訊云:數據算法驅動自動化運營

                        百萬級服務器數據中心如何管理?騰訊云:數據算法驅動自動化運營

                        來源:百度百家 作者: 更新時間:2022/8/12 15:29:59

                        摘要:8月11日,在CDCC第三屆數據中心綠色能源大會上,騰訊云公布了自身數據中心智能化運維的系列落地技術,并分享相關實踐。

                          隨著數據中心規模的快速擴張,如何提升運維效率成為行業共同關注。

                          8月11日,在CDCC第三屆數據中心綠色能源大會上,騰訊云公布了自身數據中心智能化運維的系列落地技術,并分享相關實踐。

                          作為國內頭部的云計算廠商,騰訊云運營著一百多萬臺服務器。面對千萬級的測點及千億級的日均消息量,基于數據中心自動化運營的管理平臺“騰訊智維”,大規模落地基于AI、數字孿生等技術,騰訊云數據中心顯著提升了運營效率。

                          數據算法加持 走向“預測性維護”

                          目前,騰訊云已在數據中心規?;瘧肁I和軟件機器人等技術,基于數字孿生的智能化建模、基于數倉的數據治理等手段,實現數據和算法驅動的預測性維護、智能化告警。

                          “騰訊智維平臺基于圖模一體化推進事前(風險識別和預警)、事中(告警收斂和影響分析)、事后(事件回顧和設計優化)管理,利用兩張圖(電力單線圖和暖通組態圖)融合物模型、實時數據、系統拓撲實現數據治理、容量管理、圖形可視化和仿真模擬,從系統角度實現自動化和智能化運維。”騰訊云數據中心相關負責人表示。

                          風險識別和預警層面,AI 智能化技術已得到廣泛應用。例如,騰訊云數據中心通過電池檢測模型,能實現對電池故障、壽命和容量的預測,提前14天發現隱患電池,在確??煽啃缘耐瑫r延長電池使用周期;基于震動/聲音/溫度/電流的頻譜分析和機器學習,騰訊云數據中心能對電機和水泵進行預警分析和故障診斷,例如底座不平衡、松動、匝間絕緣等,可提前預警和更換,避免宕機事故。

                          告警收斂和影響分析層面,在監控事件、告警運營和輔助決策等智能平臺的支持下,騰訊云數據中心的告警準確率已達98%,重大運營風險主動監控率和事件處理效率達99%以上,此外,“運營吹哨人”機制可實現一分鐘內同步告警的影響范圍。

                          同時,通過提升告警收斂技術,騰訊云將能把99%的非高危風險工單進行準確收斂和自動派單,極大降低運維人員的心智負擔,將重心轉移到故障分析、整改措施跟進等工作中。

                          “未來,運營人員軟技能的提升是數據中心運營質量的重要保證”,相關負責人表示。目前,騰訊云數據中心運營團隊正從“數據中心運維工程師”向“基礎設施可靠性工程師(FRE)”轉型,不僅具備產品設計、數據分析和低代碼等技能,還能依托系統平臺和低碼平臺進行管理,助力數據中心的運維工作更加安全、智能和高效。

                          此外,面對千萬級的基礎設施測點規模,騰訊云通過AI實現了PUE自動調優。能夠在沒有人力投入的情況下,每天自動完成對大規模集群的精準調節。以南方某1000個機架的模組為例,每年節約電費超過100萬。在具備冷源優化條件的數據中心,騰訊云還在構建風冷系統的AI模型。

                          基于海量的經驗積累,通過將AI技術從標桿項目推向全模組覆蓋,騰訊云數據中心將能基于更廣闊的場景和數據,建立可長期演進的數據中心可靠性模型。

                          建立物模型體系 推動行業標準建設

                          基于長期的運營經驗積累,騰訊云數據中心正在將自身經驗輸出給行業,并推動建立標準。

                          本次大會上,騰訊云數據中心發布了“達爾文物模型開放聯盟站點”。所謂“物模型”,指的是將數據中心型號繁多的設備進行抽象歸納,形成行業標準。建立物模型體系,不僅能通過即插即用顯著減少接入工作量、實現規模效應,還能打通告警、變更等關鍵業務場景,拉通端、邊、云的整體鏈條。

                          “只有整個行業去推動標準,才能實現真正的即插即用,減少現場監控系統調試,做到成本的最優解。”騰訊云相關負責人表示,希望與物模型廠商合作,共同建立標準,最大限度優化部署成本和質量。

                          據了解,騰訊云數據中心建立的物模型標準,包含 IOT 物聯模型和DC業務模型,沉淀騰訊十多年海量運營之道、安全策略和最佳實踐,將設備驅動、機理模型、數據治理、告警策略、控制規則、業務管理、大數據分析、AI 策略融合在一起,是實現系統高度自動化的必要條件。

                          值得注意的是,通過與設備廠商加強統一協議和標準化模板建設,并自研新北向和智能傳感網絡,騰訊云數據中心的多項性能得到提升。例如,監控數據性能已從分鐘級提升至10秒,未來有望進一步提升至1秒。

                          此外,騰訊云數據中心已經在間接蒸發AHU上進行了深度定制化嘗試,未來,還將在更多的數據中心基礎設施產品上持續投入,通過更精細化的產品定制,推動數據中心基礎設施向模塊化、標準化、簡單、高效方向發展。

                          在快速和海量集中自動運營的的需求下,數據中心全鏈路正走向開放和快速創新。未來,騰訊云將與合作伙伴共同推動自動化運營的更多探索,實現數據中心的精耕細作、智能運營。

                          責任編輯:張華

                        機房360微信公眾號訂閱
                        掃一掃,訂閱更多數據中心資訊

                        本文地址:http://www.foambbs.com/news/2022812/n9866148084.html 網友評論: 閱讀次數:
                        版權聲明:凡本站原創文章,未經授權,禁止轉載,否則追究法律責任。
                        轉載聲明:凡注明來源的文章其內容和圖片均為網上轉載,非商業用途,如有侵權請告知,會刪除。
                        相關評論
                        正在加載評論列表...
                        評論表單加載中...
                        • 我要分享
                        推薦圖片
                        性旺盛的女人自述