了解最新公司動(dòng)態(tài)及行業(yè)資訊
阿里巴巴的運(yùn)維系統(tǒng)經(jīng)歷了腳本時(shí)代、工具時(shí)代和時(shí)代,目前正在實(shí)現(xiàn)人工運(yùn)維和探索智能運(yùn)維階段。 2008-2009年,阿里巴巴的運(yùn)維還處于腳本時(shí)代,大量的運(yùn)維工作需要通過(guò)腳本來(lái)實(shí)現(xiàn)。 隨著業(yè)務(wù)規(guī)模和復(fù)雜度的擴(kuò)大,腳本的形式越來(lái)越難以維護(hù),于是阿里巴巴開始引入運(yùn)維工具。 在運(yùn)維工具時(shí)代,阿里巴巴的運(yùn)維體系經(jīng)歷了:從工具團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)并行的階段,到工具團(tuán)隊(duì)為了更好的保證質(zhì)量的階段的工具,然后到部分軟件有想法和功能的工具組階段。 終于,阿里巴巴的應(yīng)用運(yùn)維團(tuán)隊(duì)迎來(lái)了一次大變革。 原有的應(yīng)用運(yùn)維團(tuán)隊(duì)全部解散,并入各業(yè)務(wù)的軟件開發(fā)團(tuán)隊(duì),全面推進(jìn)思想。
進(jìn)入階段后,成熟的流程化運(yùn)維工具實(shí)際上提升了部分運(yùn)維效率,而且各個(gè)工具實(shí)際上是獨(dú)立分離的,比如監(jiān)控工具和運(yùn)維工具分離,巡檢工具和快速恢復(fù)工具也是碎片化的,導(dǎo)致在日常應(yīng)用的持續(xù)運(yùn)維過(guò)程中,從監(jiān)控到問(wèn)題發(fā)現(xiàn)、定位、快速恢復(fù)的環(huán)節(jié)漫長(zhǎng)且效率低下。 對(duì)于運(yùn)維開發(fā),期望的狀態(tài)是業(yè)務(wù)應(yīng)用上線后可以“NoOps”。 監(jiān)控和運(yùn)維系統(tǒng)可以自行檢測(cè)異常并手動(dòng)解決,使應(yīng)用和業(yè)務(wù)恢復(fù)正常。 處理完成后,發(fā)送消息通知下載即可。 發(fā)力于“NoOps”方向,阿里巴巴應(yīng)用運(yùn)維開始構(gòu)建“管控一體化”體系。
新的挑戰(zhàn)
隨著阿里巴巴業(yè)務(wù)的不斷發(fā)展和技術(shù)架構(gòu)的不斷變化,新的場(chǎng)景和問(wèn)題不斷涌現(xiàn)。 這種以應(yīng)用為中心的監(jiān)控運(yùn)維帶來(lái)了新的挑戰(zhàn)。
超大規(guī)模
阿里巴巴不僅業(yè)務(wù)種類多,體量大,尤其是一年一度的淘寶雙11大促,需要超大規(guī)模IAAS資源的支持。 2015年之前,阿里巴巴每年都要花費(fèi)巨資訂購(gòu)服務(wù)器,建設(shè)一代又一代的IDC數(shù)據(jù)中心; 2015年到2019年it運(yùn)維技術(shù),阿里巴巴正處于全面云化的過(guò)程中。 這期間,阿里巴巴的基礎(chǔ)設(shè)施一部分在云下的數(shù)據(jù)中心,一部分在阿里云上的數(shù)據(jù)中心。 還需要支持同城多活到異地多活,所以需要有強(qiáng)大的cloud-on-cloud整合超大規(guī)模資源管理的能力; 阿里巴巴在2019年實(shí)現(xiàn)全面云化后,開始面臨一個(gè)全新的超大規(guī)模資源管理場(chǎng)景:混合云。
運(yùn)維效率
業(yè)務(wù)發(fā)展瞬息萬(wàn)變,尤其是公司的重要業(yè)務(wù),迭代變化的速度非常快。 在超大規(guī)模集群管理的前提下,為保證業(yè)務(wù)的連續(xù)性和快速迭代,我們需要能夠持續(xù)高效地實(shí)現(xiàn)應(yīng)用的發(fā)布、部署、配置變更等運(yùn)維變更。 這是持續(xù)運(yùn)維領(lǐng)域要解決的問(wèn)題。
運(yùn)維安全
安全是任何行業(yè)的基礎(chǔ),尤其是IT運(yùn)維領(lǐng)域。 系統(tǒng)宕機(jī)、數(shù)據(jù)異常、數(shù)據(jù)丟失、數(shù)據(jù)庫(kù)刪除、逃逸等運(yùn)維故障和風(fēng)波層出不窮,可能給企業(yè)帶來(lái)致命打擊,甚至影響企業(yè)生死存亡。 為此,預(yù)防和遏制高危運(yùn)維故障仍是不懈追求的目標(biāo)。 在當(dāng)代眾多業(yè)務(wù)形態(tài)和云技術(shù)架構(gòu)下,如何保障企業(yè)IT運(yùn)維的安全運(yùn)行顯得尤為重要。
業(yè)務(wù)連續(xù)性
在阿里巴巴傳統(tǒng)的監(jiān)控運(yùn)維模式中,應(yīng)用的運(yùn)維開發(fā)需要在監(jiān)控系統(tǒng)上配置一些監(jiān)控項(xiàng)和預(yù)警規(guī)則。 當(dāng)監(jiān)控項(xiàng)觸發(fā)告警規(guī)則時(shí),運(yùn)維開發(fā)會(huì)收到告警通知。 然后運(yùn)維開發(fā)需要打開記事本,在運(yùn)維工具平臺(tái)創(chuàng)建相應(yīng)的處理工單。 運(yùn)維系統(tǒng)工單執(zhí)行完成后,運(yùn)維開發(fā)要繼續(xù)觀察監(jiān)控項(xiàng)是否恢復(fù)正常。 節(jié)假日、節(jié)假日收到預(yù)警通知,不能及時(shí)上線查看情況,需要聯(lián)系其他團(tuán)隊(duì)成員上線處理; 如果你在晚上睡夢(mèng)中收到預(yù)警通知it運(yùn)維技術(shù),你需要立即喚醒大腦,打開筆記本上網(wǎng)。 . 整個(gè)預(yù)警異常處理過(guò)程持續(xù)時(shí)間長(zhǎng),需要人工參與的任務(wù)多,人工成本高,使得運(yùn)維開發(fā)的工作幸福感很低。
另一方面,隨著業(yè)務(wù)的不斷發(fā)展,系統(tǒng)也在不斷減少,監(jiān)控項(xiàng)和預(yù)警也在快速增加。 漸漸地,運(yùn)維開發(fā)會(huì)僵化或輕視預(yù)警信息,很容易遺漏一些重要的上報(bào)信息,導(dǎo)致線路故障。 生意失敗。 近年來(lái),天貓直播、盒馬線下門店、餓了么訂餐、釘釘在線教育等新業(yè)態(tài)蓬勃發(fā)展。 這類業(yè)務(wù)基本上對(duì)生產(chǎn)故障零容忍。 原有系統(tǒng)最好的99.99%可用性早已無(wú)法滿足新業(yè)務(wù)的要求,而傳統(tǒng)的監(jiān)控、運(yùn)維、單打獨(dú)斗的模式,更難以滿足100%業(yè)務(wù)連續(xù)性的要求。新服務(wù)。
解決方案
為保障生產(chǎn)業(yè)務(wù)的持續(xù)運(yùn)行,提升業(yè)務(wù)系統(tǒng)從異常預(yù)警到異?;謴?fù)的整體效率,在保障安全的同時(shí)降低人力成本,我們考慮將監(jiān)控預(yù)警與運(yùn)維執(zhí)行合二為一,并然后實(shí)現(xiàn)異常人工檢測(cè)、自動(dòng)快速定位、人工快速恢復(fù)的目的,實(shí)現(xiàn)應(yīng)用運(yùn)維的“NoOps”狀態(tài)。
在應(yīng)用監(jiān)管一體化建設(shè)之前,傳統(tǒng)的監(jiān)控和運(yùn)維處于分離狀態(tài)。 運(yùn)維開發(fā)如果想在應(yīng)用的迭代變更過(guò)程中關(guān)注系統(tǒng)運(yùn)行狀態(tài),需要提前在監(jiān)控平臺(tái)上定義和配置應(yīng)用的關(guān)注度。 各項(xiàng)指標(biāo)。 在應(yīng)用變更期間,需要持續(xù)主動(dòng)查看應(yīng)用監(jiān)控指標(biāo)的變化情況,或者為各個(gè)指標(biāo)設(shè)置預(yù)警規(guī)則,通過(guò)訂閱接收配置的監(jiān)控報(bào)告,及時(shí)獲取應(yīng)用運(yùn)行異常情況。 當(dāng)應(yīng)用變更出現(xiàn)異常上報(bào)時(shí),運(yùn)維開發(fā)需要通過(guò)查看監(jiān)控、應(yīng)用日志、應(yīng)用調(diào)用鏈接等信息分析異常原因,決定需要對(duì)運(yùn)維執(zhí)行哪些任務(wù)和維護(hù)平臺(tái)恢復(fù),最后驗(yàn)證任務(wù)執(zhí)行結(jié)果是否符合預(yù)期。 為此,明確需求->配置監(jiān)控指標(biāo)并上報(bào)->分析異常原因->決策處理方法->執(zhí)行任務(wù)->驗(yàn)證執(zhí)行結(jié)果,整個(gè)過(guò)程需要運(yùn)維開發(fā)的介入。
解決方案
以保障業(yè)務(wù)連續(xù)性為動(dòng)力源泉,在逐步深化監(jiān)管融合的過(guò)程中,阿里巴巴從實(shí)戰(zhàn)經(jīng)驗(yàn)中積累了一套業(yè)務(wù)系統(tǒng)安全工程標(biāo)準(zhǔn),實(shí)現(xiàn)了業(yè)務(wù)異常的早期發(fā)現(xiàn),自動(dòng)定位,快速回收。 聯(lián)創(chuàng)在監(jiān)控、運(yùn)維、安全防護(hù)等領(lǐng)域探索了多元化的解決方案。
安全
在推進(jìn)的過(guò)程中,我們要求的底線是不要給現(xiàn)有的情況帶來(lái)更多不可控的激勵(lì),尤其是高風(fēng)險(xiǎn)場(chǎng)景的保護(hù),不要因?yàn)檫\(yùn)維工作交接給運(yùn)營(yíng)造成全局性的系統(tǒng)性問(wèn)題和維護(hù)開發(fā)人員。 風(fēng)險(xiǎn),所以安全防護(hù)方案應(yīng)運(yùn)而生。
全景監(jiān)控
監(jiān)控是運(yùn)維的基礎(chǔ)。 傳統(tǒng)的資源監(jiān)控或應(yīng)用監(jiān)控模式早已無(wú)法滿足運(yùn)維發(fā)展快速發(fā)現(xiàn)生產(chǎn)故障的需求。 基于阿里巴巴大規(guī)模實(shí)踐,我們開發(fā)了以應(yīng)用為中心,從底層業(yè)務(wù)到PaaS再到底層資源的全鏈路監(jiān)控解決方案,為業(yè)務(wù)異常檢測(cè)和定位提供有力支撐。
多元化運(yùn)維
為實(shí)現(xiàn)監(jiān)管一體化,促進(jìn)業(yè)務(wù)異??焖?、人工恢復(fù),應(yīng)用運(yùn)維從原有的以應(yīng)用為中心的可編排運(yùn)維、智能運(yùn)維等運(yùn)維模式探索單風(fēng)暴執(zhí)行模式,打通運(yùn)維。 維度領(lǐng)域的新視角。
總結(jié)
阿里巴巴應(yīng)用運(yùn)維管控一體化建設(shè)隨著業(yè)務(wù)形態(tài)和技術(shù)架構(gòu)的不斷探索和發(fā)展。 本文主要介紹應(yīng)用運(yùn)維監(jiān)控一體化建設(shè)的背景和思路。 我們以應(yīng)用為中心,從應(yīng)用監(jiān)控管理的角度,通過(guò)全視圖監(jiān)控實(shí)時(shí)掌握應(yīng)用的運(yùn)行狀態(tài),通過(guò)高效的發(fā)布部署和靈活的運(yùn)維安排對(duì)應(yīng)用進(jìn)行安全變更,實(shí)現(xiàn)它通過(guò)智能運(yùn)維和安全防護(hù)對(duì)應(yīng)用進(jìn)行中層保護(hù),我們會(huì)在后續(xù)章節(jié)為大家詳細(xì)展開。
【關(guān)于云霄】
云效,云原生時(shí)代一站式平臺(tái),支持公有云、專有云、混合云多種部署形態(tài)。 通過(guò)云原生新技術(shù)、新開發(fā)模式,推動(dòng)創(chuàng)新創(chuàng)業(yè)、數(shù)字化轉(zhuǎn)型企業(yè)快速實(shí)現(xiàn)開發(fā)敏捷和組織敏捷,打造“雙敏”組織,實(shí)現(xiàn)效率10倍提升。
立即體驗(yàn):阿里云云效_云效_云原生時(shí)代新平臺(tái)-阿里云
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)