中字幕视频在线永久在线观看免费-色偷偷88888欧美精品久久久-性生交大片免费看女人按摩-3d动漫精品啪啪一区二区下载

行業(yè)動態(tài)

了解最新公司動態(tài)及行業(yè)資訊

當前位置:首頁>新聞中心>行業(yè)動態(tài)
全部 4135 公司動態(tài) 999 行業(yè)動態(tài) 3136

阿里經(jīng)濟體全面上云后,如何實現(xiàn)云上數(shù)十萬臺的ECS實例

時間:2023-03-21   訪問量:2205

數(shù)據(jù)中心運維服務(wù)解決方案_服務(wù)器運維_應(yīng)急指揮系統(tǒng)運維服務(wù)

作者|趙宇(巴??厘島)

編輯| 鄧艷琴

上云后還需要運維嗎? 答案是:確實需要。

上云確實簡化了一部分運維工作。 比如傳統(tǒng)IT中服務(wù)器的日常運維,都是由云服務(wù)商來完成的。 然而,隨著云產(chǎn)品種類的不斷豐富和規(guī)模的不斷擴大,如何高效運維云資源正逐漸成為運維人員面臨的挑戰(zhàn)。

在12月21日結(jié)束的全球軟件開發(fā)大會(北京站)中,在“彈性工程與運維”的話題中,阿里云中級技術(shù)專家趙宇(巴力)分享了阿里經(jīng)濟學(xué)的話題云運維話題。 這篇文章是基于如何在全身完全連接到云端后,實現(xiàn)云上數(shù)十萬個ECS實例的手動運維的實踐和經(jīng)驗。

數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)_服務(wù)器運維

阿里云中級技術(shù)專家趙宇

云運維的四大挑戰(zhàn)

隨著云計算的普及和發(fā)展,越來越多的企業(yè)選擇上云。 近年來,阿里經(jīng)濟全面云化,大部分企業(yè)在云運維方面遇到的問題都是類似的。 總結(jié)起來,主要來自以下四個方面:

服務(wù)器運維_應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案

首先是規(guī)模問題。 傳統(tǒng)的 和腳本管理方法在資源較小時效果很好,但在規(guī)模較大時會失效。 幾十臺機器和幾萬臺機器的人肉管理是完全不同的概念。 此外,云上資源的種類不斷豐富,云上資源管理和運維的復(fù)雜度呈指數(shù)級增長。

第二,安全問題。 阿里經(jīng)濟體上云涉及上百個業(yè)務(wù)方,涉及大量運維人員。 如何更好地進行權(quán)限控制、審核和審批,既復(fù)雜又極其重要。 數(shù)據(jù)和資源是公司的資產(chǎn)。 過多的運維權(quán)限會增加出錯的風(fēng)險,而過少的權(quán)限則會增加管理成本。 如何安全地使用云賬號和資源,給管理者帶來了極大的挑戰(zhàn)。

第三,效率問題。 隨著資源規(guī)模的減小,如何高效管理運維,提升研發(fā)人員的工作效率,也是云上運維必須考慮的問題。

第四,成本問題。 業(yè)務(wù)方對成本優(yōu)化有顯著需求,包括資源使用者和財務(wù)人員。 希望能夠提供不同維度的資源使用賬單,為成本優(yōu)化措施提供依據(jù)。

數(shù)據(jù)中心運維服務(wù)解決方案_服務(wù)器運維_應(yīng)急指揮系統(tǒng)運維服務(wù)

我們知道,在傳統(tǒng)方式下,有專門的資源運營團隊負責資源的分配,而項目開發(fā)團隊只負責資源的使用。 而且,隨著業(yè)務(wù)規(guī)模的不斷擴大,這些管理方式基本行不通。 這時候就需要通過去中心化的方式,將基本的配置管理權(quán)委托給業(yè)務(wù)項目組。 資源管理也帶來了挑戰(zhàn)。

事實上,阿里經(jīng)濟體在云上的運維也經(jīng)歷了人肉運維到標準化、數(shù)據(jù)化、流程化運維的過程。 直至2016年,內(nèi)部云資源管理平臺“Zeus運維系統(tǒng)”雛形基本形成,實現(xiàn)了運維能力和體驗的標準化、流程化、系統(tǒng)化。 隨著資源管理規(guī)模越來越大,需求越來越多樣化,Zeus運維系統(tǒng)第一時間接管了云上資源的管控工作。

如何高效運維數(shù)十萬臺云服務(wù)器?

目前,Zeus運維系統(tǒng)管理著阿里集團內(nèi)數(shù)百個業(yè)務(wù)方的20多種云產(chǎn)品和資源,包括數(shù)十萬個ECS實例。 除了為各業(yè)務(wù)方提供資源管理和運維能力外,還提供成本分析和修復(fù)能力。

服務(wù)器運維_數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)

圖:Zeus運維平臺整體架構(gòu)

總體而言,Zeus運維平臺包括資源管理、系統(tǒng)運維、應(yīng)用運維、監(jiān)控管理和成本分析五個模塊。 向下通過控制臺為業(yè)務(wù)方提供服務(wù),向上依托阿里云平臺的云監(jiān)控、資源編排、運維編排、標簽體系、彈性伸縮、運維通道、財務(wù)系統(tǒng)管理日志服務(wù)和云服務(wù)器。 、網(wǎng)絡(luò)、對象存儲和許多其他云資源。

帳戶管理

服務(wù)器運維_應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案

由于歷史原因,Zeus運維平臺支持獨立大賬戶和管理賬戶兩種賬戶模式并存。 獨立大賬號是Zeus系統(tǒng)運維平臺在阿里云平臺的服務(wù)賬號。 管理著賬號下業(yè)務(wù)方的大量資源。 大客戶是我們推薦商務(wù)聚會的方式。 另外,由于是服務(wù)號,不允許業(yè)務(wù)方直接登錄,業(yè)務(wù)方只能通過崩潰入口進行操作,降低了操作失誤的風(fēng)險。

對于托管賬戶,是Zeus運維平臺之前的存量運維賬戶。 為了幫助業(yè)務(wù)方更好的管理這個存量賬戶,Zeus運維平臺提供賬戶托管服務(wù)。 此庫存帳戶被授予 Zeus 服務(wù)帳戶。 管理員權(quán)限,由于托管賬號的主子賬號與群登錄系統(tǒng)相連,運維人員可以直接登錄進行管理。

權(quán)限管理

服務(wù)器運維_數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)

權(quán)限管理的主要思想是對應(yīng)用進行分組,在應(yīng)用組中使用角色來區(qū)分權(quán)限,給人們分配相應(yīng)的應(yīng)用中的角色。

我們分配應(yīng)用所有者、開發(fā)、運維、安全等角色,給不同的角色賦予不同的權(quán)限。 Owner角色對申請下的資源管理具有上帝權(quán)限,同時負責審批工作; 開發(fā)人員負責日常的CI工作服務(wù)器運維,以及日常和發(fā)布前的環(huán)境測試工作; 運維人員具備在線發(fā)布審批能力; 安全人員主要負責系統(tǒng)運行維護工作,包括安全掃描、掃碼等安全工作。

這里所有的云資源都通過標簽掛載到對應(yīng)的應(yīng)用中。 通過這樣的權(quán)限管理,管理員不僅可以在人的維度上看到授權(quán)的應(yīng)用,還可以在應(yīng)用的維度上看到授權(quán)的應(yīng)用。 人們。

資源分組

應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案_服務(wù)器運維

Zeus運維系統(tǒng)基于阿里云的標簽體系,支持按部門、環(huán)境等多維度對資源進行分類,Zeus運維系統(tǒng)為創(chuàng)建的資源打上相應(yīng)的標簽,方便業(yè)務(wù)方對資源的搜索和管理。 而運維,通過標簽管理模式,可以很好的對雜亂無章的資源進行運維監(jiān)控,甚至資源共享。

對于托管賬戶,可以通過API進行操作。 系統(tǒng)解析離線云監(jiān)控消息通知,使業(yè)務(wù)方的標簽按照一定的規(guī)范設(shè)置,檢測到數(shù)據(jù)變化后同步到Zeus和CMDB。

資源交付

服務(wù)器運維_應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案

對于資源交付來說,最大的挑戰(zhàn)在于云上的資源是多地域、多類型部署的。 目前阿里云平臺上有上百種資源。 如果每一個資源都通過寫代碼和API來操作,會很復(fù)雜,效率很低。 而且大部分業(yè)務(wù)場景都不是單字投放服務(wù)器運維,一個一個組合起來需要很長時間。 業(yè)務(wù)方通常需要場景化交付。 大多數(shù)業(yè)務(wù)場景都有一個標準化的通用范式,通過場景化交付可以極大地改善資源交付的形式。

對于這種場景化的投放需求,雖然一開始是通過腳本來操作,但是耗費了大量的精力和人力,效率也比較低。 為了應(yīng)對各類資源分配場景,Zeus運維系統(tǒng)引入了機制進行資源編排,同樣的思路是開源的。

這里,Zeus運維系統(tǒng)使用了阿里云提供的ROS資源編排工具,引入集團審批流程,規(guī)范和簡化資源部署。 Zeus運維系統(tǒng)為常用場景下的具體成本資源編排模板,通過模板按場景一鍵下發(fā)資源。 模板的形式大大提高了我們資源投放的效率,同時降低了新資源的接入門檻。

運維管理

數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)_服務(wù)器運維

從運維工種來看,運維也是分層的。 系統(tǒng)層面的補丁管理、安全掃描、安全防護等能力是平臺的能力,不需要業(yè)務(wù)方關(guān)心。 Zeus運維系統(tǒng)體現(xiàn)了這種能力后,提供了統(tǒng)一的管理機制。

在應(yīng)用層,主要涉及資源運維和CI/CD。 Zeus運維系統(tǒng)應(yīng)用資源運維,將常用運維動作體現(xiàn)為運維編排模板,使用阿里云運維編排服務(wù)進行工作流編排,支持業(yè)務(wù)方在定義運維操作的同時自定義運維操作常見運維場景。 這樣運維過程就可以積累和復(fù)制。 此外,借助底層能力,支持定時、告警、事件觸發(fā)運維操作,進一步提升運維操作效率。

在CI/CD部分,Zeus運維系統(tǒng)主要使用阿里巴巴集團的Aone(云效)系統(tǒng),支持基于軟件包和鏡像的批量發(fā)布,并允許自定義操作。

監(jiān)控報警

應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案_服務(wù)器運維

從信息源的角度來看,告警和監(jiān)控可以分為資源監(jiān)控、應(yīng)用監(jiān)控和服務(wù)監(jiān)控。 級別越高,監(jiān)控和報警的準確性越高,但通用性越低。 Zeus運維系統(tǒng)實現(xiàn)了多種告警處理方式。 通過與監(jiān)控系統(tǒng)的集成,通過群組聯(lián)系人發(fā)送告警,如郵件、釘釘?shù)刃畔ⅲ?針對人工場景,通過彈性伸縮和運維編排對接,觸發(fā)人工操作,實現(xiàn)人工運維工作,完成人工閉環(huán)。

診斷與維修

數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)_服務(wù)器運維

隨著越來越多的資源和服務(wù)被使用,內(nèi)部業(yè)務(wù)方對ECS實例和網(wǎng)絡(luò)問題的咨詢越來越多。 為了提高解決問題的效率,運維平臺還必須具備自證清白的能力。 因此,我們通過與阿里云內(nèi)部ECS、網(wǎng)絡(luò)、操作系統(tǒng)等團隊的共建,借助歷史數(shù)據(jù)生成了案例庫和知識庫,加上專家經(jīng)驗,積累了診斷修復(fù)能力,一鍵診斷幫助業(yè)務(wù)方快速定位具體問題。 針對一些常見問題,將常用修復(fù)腳本可視化,提供一鍵修復(fù)能力。

以ECS實例為例,通過實例監(jiān)控定位問題根源。 同時,我們提供自動修復(fù)解決方案。 同時,我們還提供運維編排的一鍵式人工修復(fù)能力。 此過程支持快照回滾。 通過該部分的建設(shè),我們?nèi)粘V蛋嗟姆?wù)量有了大幅度的提升。

成本管理

成本管理的目標主要是成本優(yōu)化。 很多業(yè)務(wù)方申請了很多云服務(wù)器資源。 在使用過程中,他們發(fā)現(xiàn)有些機器雖然用得不多,或者CPU使用率比較低,但是卻造成了資源的浪費。 Zeus運維系統(tǒng)通過成本管理的建設(shè),將成本管理的意識傳遞給業(yè)務(wù)方,推動業(yè)務(wù)方完成成本優(yōu)化。

在成本管理的思路上,我們主要通過事前的卡點和活動期間的分賬能力來實現(xiàn)。 首先,在申請資源的時候,做一個審批檢查點。 如果請求的資源大小很高,會給出一些提示詢問資源申請是否合理。 費用分攤到相應(yīng)的部門和項目組,定期向業(yè)務(wù)方提供賬單。 財務(wù)部門對部門的賬單進行分析,確定哪些項目是超出手段的,同時也鼓勵業(yè)務(wù)方優(yōu)化資源使用。 . 比如是否切換到彈性伸縮來優(yōu)化成本,調(diào)整資源分配大小來優(yōu)化等,促進業(yè)務(wù)端從成本的角度進行優(yōu)化。

總結(jié)

應(yīng)急指揮系統(tǒng)運維服務(wù)_數(shù)據(jù)中心運維服務(wù)解決方案_服務(wù)器運維

本文主要介紹Zeus運維系統(tǒng)在阿里經(jīng)濟上云過程中如何高效管理云上資源的經(jīng)驗。 這里給遇到同樣問題的運維人員一些參考。

會議推薦

2021年4月22-24日,QCon全球軟件開發(fā)大會(廣州站)再次恢復(fù)3天。 大會規(guī)模將在2000人左右,嘉賓陣容和話題關(guān)注度會越來越強。 目前,會議已確定12個技術(shù)議題和73位演講嘉賓。 會議內(nèi)容將持續(xù)更新,感興趣的伙伴敬請關(guān)注。

掃描右側(cè)二維碼或點擊【閱讀原文】,直接進入大會官網(wǎng)。 更多問題請咨詢客戶總監(jiān)環(huán):(同陌陌)

數(shù)據(jù)中心運維服務(wù)解決方案_應(yīng)急指揮系統(tǒng)運維服務(wù)_服務(wù)器運維

上一篇:一篇文章解答ITSS服務(wù)項目經(jīng)理證書相關(guān)的所有問題,文章中會

下一篇:IBM全球信息科技服務(wù)部大中華區(qū)總經(jīng)理謝少毅:引領(lǐng)數(shù)字化時代的IT領(lǐng)袖

發(fā)表評論:

評論記錄:

未查詢到任何數(shù)據(jù)!

在線咨詢

點擊這里給我發(fā)消息 售前咨詢專員

點擊這里給我發(fā)消息 售后服務(wù)專員

在線咨詢

免費通話

24小時免費咨詢

請輸入您的聯(lián)系電話,座機請加區(qū)號

免費通話

微信掃一掃

微信聯(lián)系
返回頂部