了解最新公司動態(tài)及行業(yè)資訊
本發(fā)明專利技術(shù)涉及集群服務(wù)故障預(yù)警技術(shù)領(lǐng)域,公開了一種基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng),包括:運行集群服務(wù)服務(wù)器軟件的云服務(wù)器故障預(yù)警系統(tǒng),部署在遠程云計算服務(wù)器,計算機終端,運行集群服務(wù)故障預(yù)警系統(tǒng)客戶端軟件,用于執(zhí)行集群服務(wù)器的運維管理任務(wù),計算機終端與云計算服務(wù)器通過網(wǎng)絡(luò)通信設(shè)備進行相互通信;集群服務(wù)故障預(yù)警系統(tǒng)包括數(shù)據(jù)采集代理節(jié)點CNi、網(wǎng)關(guān)服務(wù)器和數(shù)據(jù)計算中心。數(shù)據(jù)計算中心與網(wǎng)關(guān)服務(wù)器相互通信,網(wǎng)關(guān)服務(wù)器與采集代理節(jié)點CNi相互通信。本發(fā)明專利技術(shù)解決了如何通過遠程服務(wù)調(diào)用服務(wù)的監(jiān)控操作實現(xiàn)集群系統(tǒng)的監(jiān)控預(yù)警的技術(shù)難題。
下載所有詳細(xì)的技術(shù)數(shù)據(jù)
【技術(shù)實現(xiàn)步驟總結(jié)】
一種基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng)
專利技術(shù)涉及集群服務(wù)故障預(yù)警
,具體來說是一個基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng)。
技術(shù)介紹
隨著計算機制造技術(shù)和網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展,集群系統(tǒng)以其可擴展性好、性價比高等優(yōu)勢服務(wù)器運維技術(shù),逐漸取代了傳統(tǒng)的大型機和超級計算機,在眾多工業(yè)領(lǐng)域得到了廣泛的應(yīng)用。然而,集群系統(tǒng)往往由普通的計算機節(jié)點組成,無法保證始終穩(wěn)定可靠的運行。節(jié)點故障或網(wǎng)絡(luò)問題,甚至流量突然增加,都可能導(dǎo)致集群服務(wù)中斷。因此,集群監(jiān)控成為保障集群穩(wěn)健服務(wù)的關(guān)鍵技術(shù)。集群系統(tǒng)的節(jié)點通常通過遠程服務(wù)調(diào)用的方式進行通信。節(jié)點通過調(diào)用其他節(jié)點的遠程服務(wù)接口完成其功能,同時也通過遠程服務(wù)調(diào)用接口對外提供服務(wù)。遠程服務(wù)調(diào)用(RPC)是一種進程間通信方式,允許進程通過網(wǎng)絡(luò)調(diào)用遠程服務(wù)接口來完成功能。但是由于跨主機通信,RPC服務(wù)更容易因為網(wǎng)絡(luò)故障和對等故障而出現(xiàn)故障。了解RPC服務(wù)的成功率和延遲,有助于掌握集群服務(wù)的狀態(tài),保證集群服務(wù)的質(zhì)量。因此,如何通過遠程服務(wù)調(diào)用服務(wù)的監(jiān)控操作來實現(xiàn)集群系統(tǒng)的監(jiān)控和預(yù)警,成為保證集群系統(tǒng)服務(wù)質(zhì)量的有效解決方案。
技術(shù)實現(xiàn)思路
(一)解決的技術(shù)問題針對現(xiàn)有技術(shù)的不足,本專利技術(shù)提供基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng),解決如何通過監(jiān)控調(diào)用服務(wù)遠程服務(wù)運行,實現(xiàn)集群系統(tǒng)監(jiān)控預(yù)警的技術(shù)問題。(二)技術(shù)方案為了達到上述目的,專利技術(shù)提供了如下技術(shù)方案:集群服務(wù)故障基于RPC服務(wù)監(jiān)控的預(yù)警系統(tǒng),包括:運行集群服務(wù)服務(wù)故障預(yù)警系統(tǒng)的服務(wù)器軟件和部署在遠程云端的云計算服務(wù)器,運行集群服務(wù)故障預(yù)警客戶端軟件的計算機終端系統(tǒng),用于執(zhí)行集群服務(wù)器的運維管理任務(wù),計算機終端與云端通信通過網(wǎng)絡(luò)通信設(shè)備將計算服務(wù)器相互連接進行通信;集群服務(wù)故障預(yù)警系統(tǒng)包括數(shù)據(jù)采集代理節(jié)點CNi、網(wǎng)關(guān)服務(wù)器和數(shù)據(jù)計算中心,數(shù)據(jù)計算中心和網(wǎng)關(guān)服務(wù)器相互連接通信,網(wǎng)關(guān)服務(wù)器和數(shù)據(jù)計算中心相互連接。代理節(jié)點CNi進行相互之間的通信連接。進一步地,所述的數(shù)據(jù)獲取代理節(jié)點CNi部署在各個監(jiān)控節(jié)點中,負(fù)責(zé)通過進程間通信收集被監(jiān)控進程RPC框架上報的監(jiān)控數(shù)據(jù),并且該數(shù)據(jù)進一步,數(shù)據(jù)計算中心負(fù)責(zé)大規(guī)模監(jiān)控數(shù)據(jù)流的實時計算和實時分析,主要包括數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計模塊、結(jié)果分析報警模塊,數(shù)據(jù)存儲模塊。
進一步,數(shù)據(jù)分析與告警模塊負(fù)責(zé)根據(jù)閾值判斷規(guī)則分析監(jiān)控數(shù)據(jù)流的統(tǒng)計結(jié)果,判斷是否需要向運維平臺發(fā)出告警。 (三)有益技術(shù)效果 與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益技術(shù)效果: 專利技術(shù)用于通過在每個監(jiān)控節(jié)點上部署一個數(shù)據(jù)采集代理節(jié)點CNi來采集被監(jiān)控進程。RPC框架通過進程間通信上報監(jiān)控數(shù)據(jù),并通過網(wǎng)關(guān)服務(wù)器主動將數(shù)據(jù)發(fā)送給數(shù)據(jù)計算中心,數(shù)據(jù)計算中心負(fù)責(zé)對大規(guī)模監(jiān)控數(shù)據(jù)進行實時計算和實時分析流,監(jiān)控數(shù)據(jù)流基于閾值判斷規(guī)則,分析系統(tǒng)的統(tǒng)計結(jié)果,判斷是否需要向運維平臺發(fā)出告警,從而實現(xiàn)監(jiān)控預(yù)警的技術(shù)效果。集群系統(tǒng)通過遠程服務(wù)調(diào)用服務(wù)的監(jiān)控運行,具體實現(xiàn)方式以實現(xiàn)方式為準(zhǔn)下面結(jié)合專利技術(shù)舉例,清楚完整地描述專利技術(shù)實施例中的技術(shù)方案。顯然,所描述的實施例僅僅是專利技術(shù)的一部分實施例,而不是全部的實施例?;诒緦@夹g(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護的范圍。一種集群服務(wù)故障預(yù)警基于RPC服務(wù)監(jiān)控的系統(tǒng),包括:運行集群服務(wù)故障預(yù)警系統(tǒng)服務(wù)器軟件和部署在遠程云端的云計算服務(wù)器運行集群服務(wù)故障預(yù)警系統(tǒng)客戶端軟件的計算機終端,用于執(zhí)行操作和集群服務(wù)器的維護管理任務(wù)。計算機終端通過網(wǎng)絡(luò)通信設(shè)備與云計算服務(wù)器進行通信。進行相互通信連接;集群服務(wù)故障預(yù)警系統(tǒng)包括數(shù)據(jù)采集代理節(jié)點CNi、網(wǎng)關(guān)服務(wù)器和數(shù)據(jù)計算中心,數(shù)據(jù)計算中心和網(wǎng)關(guān)服務(wù)器相互連接通信,網(wǎng)關(guān)服務(wù)器和采集代理節(jié)點. CNi 相互通信;其中,數(shù)據(jù)收集代理節(jié)點CNi部署在各個監(jiān)控節(jié)點上,負(fù)責(zé)收集被監(jiān)控進程RPC框架通過進程間通信上報的監(jiān)控數(shù)據(jù),并主動將數(shù)據(jù)發(fā)送給網(wǎng)關(guān)服務(wù)器;網(wǎng)關(guān)服務(wù)器負(fù)責(zé)處理數(shù)據(jù)采集代理節(jié)點CNi的數(shù)據(jù)上報請求,負(fù)責(zé)監(jiān)控數(shù)據(jù)的聚合;進一步,數(shù)據(jù)計算中心負(fù)責(zé)大規(guī)模監(jiān)控數(shù)據(jù)流的實時計算和實時分析服務(wù)器運維技術(shù),主要包括數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計模塊、結(jié)果分析與告警模塊、數(shù)據(jù)存儲模塊;數(shù)據(jù)清洗模塊負(fù)責(zé)從網(wǎng)關(guān)服務(wù)器獲取原始監(jiān)控數(shù)據(jù)流,并檢查原始監(jiān)控數(shù)據(jù)流的有效性和及時性。數(shù)據(jù)統(tǒng)計模塊負(fù)責(zé)統(tǒng)計監(jiān)控數(shù)據(jù)流,包括系統(tǒng)的機器性能統(tǒng)計和各個RPC接口的服務(wù)性能統(tǒng)計;數(shù)據(jù)分析與告警模塊,負(fù)責(zé)根據(jù)閾值判斷規(guī)則對監(jiān)控數(shù)據(jù)流的統(tǒng)計結(jié)果進行分析,判斷是否需要向運維平臺發(fā)出告警;數(shù)據(jù)存儲模塊負(fù)責(zé)監(jiān)測數(shù)據(jù)統(tǒng)計,分析結(jié)果存入數(shù)據(jù)庫;進一步地,在計算機終端的操作系統(tǒng)上安裝并運行通信權(quán)限認(rèn)證系統(tǒng)的服務(wù)器軟件;為防止非法網(wǎng)絡(luò)節(jié)點通過集群服務(wù)器冒充云計算服務(wù)器,服務(wù)故障預(yù)警系統(tǒng)向計算機終端發(fā)送虛假集群服務(wù)故障預(yù)警信息。在計算機終端接收到云計算服務(wù)器發(fā)送的告警信息之前,通信權(quán)限認(rèn)證系統(tǒng)對云計算服務(wù)器的身份進行驗證。該認(rèn)證方法具體包括以下步驟: 步驟1,云計算服務(wù)器在通信權(quán)限認(rèn)證系統(tǒng)上注冊通信權(quán)限,具體如下:云計算服務(wù)器在通信權(quán)限認(rèn)證系統(tǒng)上隨機選擇私鑰x,并計算公鑰y=x*P,其中P定義在有限域F上的橢圓曲線E的生成器將公鑰y暴露給通信權(quán)限認(rèn)證系統(tǒng);步驟二,當(dāng)云計算服務(wù)器向計算機終端發(fā)送集群服務(wù)失敗警告信息時,通信權(quán)限認(rèn)證系統(tǒng)驗證云計算服務(wù)器的身份。認(rèn)證如下:云計算服務(wù)器隨機選擇一個整數(shù)N,計算M=N*P,將M發(fā)送給通信權(quán)限認(rèn)證系統(tǒng);通信權(quán)限認(rèn)證系統(tǒng)隨機選擇字符l∈{0,1},分配字符l發(fā)送給云計算服務(wù)器;云計算服務(wù)器計算N+l*x并傳送給通信權(quán)限認(rèn)證系統(tǒng);通信權(quán)限認(rèn)證系統(tǒng)驗證方程(N+l*x)*P=M+l*y是否成立;如果上式成立,證明云計算服務(wù)器知道通信私鑰x,具有合法的通信權(quán)限,則計算機終端接受云計算服務(wù)器發(fā)送的集群服務(wù)失敗警告信息;在上述認(rèn)證過程中,密鑰x只在認(rèn)證過程中。參與計算,不傳輸通信,使得非法跟蹤者無法截獲線路中的密鑰,云計算服務(wù)器的身份認(rèn)證過程是零知識的;其中,遠程服務(wù)調(diào)用(,RPC)是一種進程間通信協(xié)議,它允許應(yīng)用進程在不知道底層網(wǎng)絡(luò)的情況下,通過網(wǎng)絡(luò)向遠程計算機上的應(yīng)用進程請求服務(wù)
【技術(shù)保護點】
1.一種基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng),其特征在于它包括:運行集群服務(wù)故障預(yù)警系統(tǒng)服務(wù)器軟件并部署在遠程云端的云計算服務(wù)器,運行一個集群服務(wù)故障預(yù)警系統(tǒng) 服務(wù)故障預(yù)警系統(tǒng)的客戶端軟件和用于執(zhí)行集群服務(wù)器運維管理任務(wù)的計算機終端,計算機終端通過網(wǎng)絡(luò)通信設(shè)備與云計算服務(wù)器連接,用于相互通信;/n 集群服務(wù)故障預(yù)警系統(tǒng)包括:數(shù)據(jù)采集代理節(jié)點CNi、網(wǎng)關(guān)服務(wù)器、數(shù)據(jù)計算中心、數(shù)據(jù)計算中心和網(wǎng)關(guān)服務(wù)器相互通信、網(wǎng)關(guān)服務(wù)器與采集代理節(jié)點CNi相互通信。 /n
【技術(shù)特點總結(jié)】
1.一種基于RPC服務(wù)監(jiān)控的集群服務(wù)故障預(yù)警系統(tǒng),其特征在于它包括:運行集群服務(wù)故障預(yù)警系統(tǒng)服務(wù)器軟件并部署在遠程云端的云計算服務(wù)器,運行一個集群服務(wù)故障預(yù)警系統(tǒng) 服務(wù)故障預(yù)警系統(tǒng)的客戶端軟件和計算機終端,用于執(zhí)行集群服務(wù)器的運維管理任務(wù),計算機終端通過網(wǎng)絡(luò)通信設(shè)備與云計算服務(wù)器連接,用于溝通;
集群服務(wù)故障預(yù)警系統(tǒng)包括數(shù)據(jù)采集代理節(jié)點CNi、網(wǎng)關(guān)服務(wù)器、數(shù)據(jù)計算中心。數(shù)據(jù)計算中心和網(wǎng)關(guān)服務(wù)器相互通信,網(wǎng)關(guān)服務(wù)器和采集代理節(jié)點CNi相互通信。通訊連接。
2.根據(jù)權(quán)利要求1所述的基于RPC服務(wù)監(jiān)控的集群服務(wù)器...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孫東英,
申請人(專利權(quán)):孫東英,
類型:發(fā)明
國家省市:山東;37
下載所有詳細(xì)的技術(shù)數(shù)據(jù)我是該專利的所有者