中字幕视频在线永久在线观看免费-色偷偷88888欧美精品久久久-性生交大片免费看女人按摩-3d动漫精品啪啪一区二区下载

行業(yè)動態(tài)

了解最新公司動態(tài)及行業(yè)資訊

當(dāng)前位置:首頁>新聞中心>行業(yè)動態(tài)
全部 4142 公司動態(tài) 1006 行業(yè)動態(tài) 3136

大規(guī)模數(shù)據(jù)中心運維存在如下的痛點問題系統(tǒng)

時間:2023-03-12   訪問量:2609

本文來自《數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)》,分析了云和數(shù)據(jù)中心的發(fā)展趨勢、工業(yè)互聯(lián)網(wǎng)時代的智能化運營需求和TIFDS故障診斷系統(tǒng)。

f4b4f944-06f5-11ed-ba43-dac502259ad0.png

隨著云技術(shù)的普及,特別是“新基建”和“數(shù)字化轉(zhuǎn)型”需求帶動數(shù)字經(jīng)濟(jì)快速發(fā)展,CDC數(shù)據(jù)中心的服務(wù)器部署規(guī)模也呈指數(shù)級下降。 突發(fā)運維管理越來越復(fù)雜和困難,傳統(tǒng)海量服務(wù)器數(shù)據(jù)中心的故障運行也面臨著更大的挑戰(zhàn)和更昂貴的成本。 從最初的腳本運維、工具運維演進(jìn)到平臺運維服務(wù)器運維,人力已經(jīng)接近極限,越來越難以滿足快速修復(fù)故障、恢復(fù)業(yè)務(wù)運營的要求。

大型數(shù)據(jù)中心運維存在以下痛點:

1、機(jī)器出現(xiàn)故障后,重要日志信息不完整,人工難以定位故障部位;

2、故障診斷效率低下。 服務(wù)器出現(xiàn)問題后,主要靠人工分析和經(jīng)驗判斷結(jié)果,人工和智能化程度不高。

3、成本高,時效性差。 人工體驗分析依賴大量運維人力,運維時間(MTTR)長,影響業(yè)務(wù)快速恢復(fù)。

聯(lián)通公司運維服務(wù)管控工作總結(jié)_組織級運維服務(wù)目錄_服務(wù)器運維

4. 由于診斷結(jié)果清晰度低,二次故障修復(fù)比例高,造成額外的數(shù)據(jù)遷移成本和業(yè)務(wù)影響。

TIFDS(&Fault)故障診斷系統(tǒng)是服務(wù)器健康監(jiān)測技術(shù)和故障預(yù)警診斷技術(shù)的統(tǒng)稱。 故障診斷系統(tǒng)提高了服務(wù)器故障預(yù)警能力、故障診斷清晰度和停機(jī)維護(hù)效率,減少了非計劃停機(jī)時間,提高了服務(wù)器全生命周期的RAS強(qiáng)特性(可靠性、可用性、可維護(hù)性)。

系統(tǒng)依托騰訊超過100萬臺服務(wù)器的維護(hù)數(shù)據(jù),深度定制服務(wù)器風(fēng)暴日志,利用AI技術(shù)實時分析服務(wù)器運行數(shù)據(jù)服務(wù)器運維,實現(xiàn)CPU、顯存、硬盤、PCIe的人工預(yù)警等設(shè)備,將服務(wù)器故障診斷人工澄清率提高到95%以上。

服務(wù)器運維_組織級運維服務(wù)目錄_聯(lián)通公司運維服務(wù)管控工作總結(jié)

f4d7a5d4-06f5-11ed-ba43-dac502259ad0.png

停機(jī)故障診斷

TIFDS可以涵蓋IERR(Error)和非IERR引起的系統(tǒng)宕機(jī),準(zhǔn)確定位故障部件,如CPU、顯存、顯卡、PCIe外接卡、存儲等設(shè)備。 一旦服務(wù)器運行過程中出現(xiàn)異常,TIFDS系統(tǒng)會第一時間做出響應(yīng),準(zhǔn)確診斷出故障部件,并上報故障原因、故障部件的具體位置、部件的型號信息和維修建議及時到運維管理系統(tǒng)。 運維管理系統(tǒng)可人工生成維修工單,運維人員可根據(jù)TIFDS的指引快速更換故障部件或排除故障,使機(jī)器快速恢復(fù)到健康狀態(tài)。 將傳統(tǒng)的小時預(yù)估修復(fù)時間級別壓縮到分鐘級別。 大幅提升運維效率,實現(xiàn)云服務(wù)快速恢復(fù)。

服務(wù)器運維_聯(lián)通公司運維服務(wù)管控工作總結(jié)_組織級運維服務(wù)目錄

f4f4e98c-06f5-11ed-ba43-dac502259ad0.png

非停機(jī)故障診斷

TIFDS系統(tǒng)通過BMC實時監(jiān)控服務(wù)器系統(tǒng)各處的電流、電流、溫度傳感器信息,實時監(jiān)控電源、風(fēng)扇以及各部件的工作狀態(tài)和工作負(fù)載; 基于可在線更新的告警閾值和預(yù)警閾值及故障判斷規(guī)則,可對服務(wù)器中的風(fēng)險位置實現(xiàn)故障預(yù)警、故障告警或故障判斷,并時刻上報智能運維系統(tǒng)。

服務(wù)器運維_聯(lián)通公司運維服務(wù)管控工作總結(jié)_組織級運維服務(wù)目錄

f505cd88-06f5-11ed-ba43-dac502259ad0.png

故障預(yù)警與隔離

TIFDS可以跟蹤服務(wù)器中所有組件的生命周期和運行狀態(tài),通過機(jī)器學(xué)習(xí)算法對高危組件進(jìn)行預(yù)警,減少服務(wù)器在高負(fù)載運行情況下的突發(fā)故障。 此外,對于發(fā)生故障的部件,TIFDS可以根據(jù)部件類別采取相應(yīng)的隔離措施,防止單個非關(guān)鍵部件的故障影響整機(jī)系統(tǒng)的運行。

f5271786-06f5-11ed-ba43-dac502259ad0.png

TIFDS是騰訊云運維監(jiān)控系統(tǒng)的重要組成部分。 它是服務(wù)器帶外數(shù)據(jù)的主要來源。 對內(nèi)存、CPU、PCIe等元器件的故障監(jiān)測、故障預(yù)測、大規(guī)模告警做出了巨大貢獻(xiàn)。 通過多樣化的日志手動適配騰訊云備件系統(tǒng),降低騰訊云健康管理系統(tǒng)的參考維度,開發(fā)基于帶內(nèi)帶外日志的在線診斷系統(tǒng)。 深度多元化的模式和簡單易用的運維工具,讓整個運維系統(tǒng)變得更加智能和高效。

上一篇:零基礎(chǔ)Java從入門到精通編程自學(xué)入門配視頻教學(xué)

下一篇:中國IT服務(wù)市場有個系統(tǒng)的發(fā)展現(xiàn)狀分析

發(fā)表評論:

評論記錄:

未查詢到任何數(shù)據(jù)!

在線咨詢

點擊這里給我發(fā)消息 售前咨詢專員

點擊這里給我發(fā)消息 售后服務(wù)專員

在線咨詢

免費通話

24小時免費咨詢

請輸入您的聯(lián)系電話,座機(jī)請加區(qū)號

免費通話

微信掃一掃

微信聯(lián)系
返回頂部