了解最新公司動(dòng)態(tài)及行業(yè)資訊
關(guān)于作者
新居網(wǎng)絡(luò)首席架構(gòu)師梁明圖,在數(shù)據(jù)庫(kù)運(yùn)維、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)設(shè)計(jì)和系統(tǒng)規(guī)劃建設(shè)方面擁有10多年的經(jīng)驗(yàn),對(duì)數(shù)據(jù)架構(gòu)管理和數(shù)據(jù)資產(chǎn)管理有深入的研究。
隨著企業(yè)IT信息化的不斷深入,企業(yè)對(duì)IT系統(tǒng)的依賴(lài)程度與日俱增。面對(duì)越來(lái)越多樣化的IT系統(tǒng),企業(yè)中的各級(jí)IT人員可謂是又愛(ài)又恨。我喜歡的是企業(yè)的各種IT系統(tǒng)已經(jīng)成為企業(yè)業(yè)務(wù)的助推器,提高了企業(yè)業(yè)務(wù)和管理的效率??珊薜氖?,隨著企業(yè)越來(lái)越離不開(kāi)IT系統(tǒng),IT運(yùn)維被推到了風(fēng)口浪尖。如何保證IT系統(tǒng)高效、穩(wěn)定、持續(xù),甚至24/7全天候提供服務(wù),已成為企業(yè)各級(jí)IT人員亟待解決的問(wèn)題。
IT運(yùn)維是指企業(yè)IT部門(mén)運(yùn)用相關(guān)方法、手段、技術(shù)、系統(tǒng)等,對(duì)IT軟硬件運(yùn)行環(huán)境、IT業(yè)務(wù)系統(tǒng)和IT運(yùn)維人員進(jìn)行綜合管理。隨著技術(shù)的發(fā)展, IT運(yùn)維近年來(lái)也發(fā)生了翻天覆地的變化。下面總結(jié)了近年來(lái)IT運(yùn)維的發(fā)展,展望了未來(lái)IT運(yùn)維的大趨勢(shì)。
一、IT技術(shù)架構(gòu):從“IOE架構(gòu)”到“互聯(lián)網(wǎng)架構(gòu)”
1、IOE 架構(gòu)
為什么要從技術(shù)架構(gòu)開(kāi)始?政治經(jīng)濟(jì)學(xué)是這樣概括的:“經(jīng)濟(jì)基礎(chǔ)決定上層建筑”,我想IT行業(yè)也是如此。技術(shù)架構(gòu)的基本演進(jìn)會(huì)從根本上導(dǎo)致其他領(lǐng)域的變化,當(dāng)然也包括我們討論的IT運(yùn)維層面。
曾幾何時(shí),以IBM為代表的商用小型機(jī)、以IBM為代表的商用數(shù)據(jù)庫(kù)、以EMC為代表的高端存儲(chǔ)設(shè)計(jì),是高端企業(yè)IT系統(tǒng)的標(biāo)準(zhǔn)。十多年前我參觀過(guò)一家省級(jí)運(yùn)營(yíng)商的機(jī)房,幾乎都是黑壓壓的IBM小型機(jī);他們的系統(tǒng)數(shù)據(jù)庫(kù)是企業(yè)級(jí)數(shù)據(jù)庫(kù),無(wú)論大小和用途如何。
回過(guò)頭來(lái)看,當(dāng)時(shí)的企業(yè)為什么會(huì)傾向于這種IOE架構(gòu)?當(dāng)時(shí),企業(yè)的選擇是可以理解的。就連被稱(chēng)為“去IOE”的阿里,也是最具攻擊性的。當(dāng)年原來(lái)的技術(shù)架構(gòu)其實(shí)是IOE。在當(dāng)時(shí)分布式技術(shù)還不成熟的前提下,國(guó)外成熟的商用軟硬件產(chǎn)品IOE確實(shí)帶來(lái)了與同期其他產(chǎn)品相比無(wú)與倫比的單機(jī)穩(wěn)定性和高性能。
曾經(jīng)在客戶(hù)現(xiàn)場(chǎng)看到一臺(tái)即將下線(xiàn)的舊小機(jī)器。我在關(guān)閉并離線(xiàn)之前檢查了啟動(dòng)時(shí)間。驚訝的發(fā)現(xiàn),這臺(tái)機(jī)器上一次開(kāi)機(jī)的時(shí)間是3000多天前,也就是說(shuō),據(jù)說(shuō)這臺(tái)小機(jī)器已經(jīng)服役了近十年,沒(méi)有出現(xiàn)故障,沒(méi)有停機(jī)。正是為了這種穩(wěn)定性和性能,很多企業(yè)付出了不小的代價(jià),因?yàn)閷?duì)于IT運(yùn)營(yíng)商來(lái)說(shuō),“穩(wěn)定性壓倒一切”是他們的根本需求。
此外,考慮到技術(shù)因素,在IT系統(tǒng)運(yùn)維仍以人力資源為主的時(shí)代,系統(tǒng)技術(shù)棧的單一組成也有利于開(kāi)發(fā)運(yùn)維團(tuán)隊(duì)的形成和培養(yǎng)。比如一兩個(gè)再加上一些中低級(jí)的DBA就可以處理所有數(shù)據(jù)庫(kù)相關(guān)的問(wèn)題,這顯然是一個(gè)非常劃算的選擇。
但隨著技術(shù)的發(fā)展,傳統(tǒng)的基于“IOE”架構(gòu)提供的縱向擴(kuò)展技術(shù)為高端商業(yè)產(chǎn)品設(shè)計(jì)的集中式系統(tǒng)架構(gòu)已經(jīng)遇到瓶頸。尤其是對(duì)互聯(lián)網(wǎng)公司技術(shù)架構(gòu)的不斷深入研究,給IT行業(yè)帶來(lái)了新的技術(shù)模式變革?;ヂ?lián)網(wǎng)企業(yè)掀起轟轟烈烈的科技革命,背后的原因無(wú)外乎以下幾點(diǎn):
2、互聯(lián)網(wǎng)架構(gòu)
隨著技術(shù)的發(fā)展,這種基于云的、分布式的、開(kāi)源的技術(shù)架構(gòu)開(kāi)始進(jìn)入傳統(tǒng)企業(yè)的視線(xiàn)。2014年9月,銀監(jiān)會(huì)發(fā)布第39號(hào)文《關(guān)于應(yīng)用安全可控信息技術(shù)加強(qiáng)銀行網(wǎng)絡(luò)安全和信息化建設(shè)的指導(dǎo)意見(jiàn)》。隨后幾年,又掀起了一股傳統(tǒng)企業(yè)去IOE學(xué)習(xí)互聯(lián)網(wǎng)架構(gòu)的浪潮。
互聯(lián)網(wǎng)架構(gòu)其實(shí)并不神秘??梢钥偨Y(jié)如下:
因此,在互聯(lián)網(wǎng)架構(gòu)、云計(jì)算、大數(shù)據(jù)等新興技術(shù)的沖擊下,企業(yè)的IT技術(shù)架構(gòu)逐漸開(kāi)始變革,從原來(lái)單一的IOE架構(gòu)向x86、云架構(gòu)開(kāi)放源解決方案。各種技術(shù)架構(gòu)的變化(見(jiàn)圖 1-1))。這種技術(shù)架構(gòu)的創(chuàng)新必然會(huì)帶來(lái)運(yùn)維領(lǐng)域其他關(guān)鍵因素的創(chuàng)新,推動(dòng)“運(yùn)維”行業(yè)的發(fā)展。
圖1-1 從IOE架構(gòu)到“互聯(lián)網(wǎng)架構(gòu)”
二、運(yùn)維系統(tǒng):從ITIL到
1、ITIL
企業(yè)技術(shù)架構(gòu)的不斷創(chuàng)新,推動(dòng)了IT運(yùn)維管理模式的運(yùn)維體系從穩(wěn)態(tài)向敏感態(tài)轉(zhuǎn)變。
隨著企業(yè)信息化的深入,IT系統(tǒng)越來(lái)越多,企業(yè)IT運(yùn)維人員的數(shù)量也在增加。許多企業(yè)信息化部門(mén)專(zhuān)門(mén)成立運(yùn)維團(tuán)隊(duì),開(kāi)展IT系統(tǒng)運(yùn)維工作。IT團(tuán)隊(duì)內(nèi)部對(duì)運(yùn)維人員的各種活動(dòng)進(jìn)行管理是自然而然的事情。ITIL 為企業(yè) IT 服務(wù)管理提供了一個(gè)客觀、嚴(yán)謹(jǐn)和可量化的最佳實(shí)踐標(biāo)準(zhǔn)和規(guī)范。我想,長(zhǎng)期以來(lái),正是ITIL提出的這些標(biāo)準(zhǔn)和規(guī)范,為我國(guó)很多企業(yè)的運(yùn)維體系建設(shè)指明了方向。
ITIL強(qiáng)調(diào)流程:以ITIL理念為核心的各類(lèi)ITSM系統(tǒng)的運(yùn)維操作。事件管理、問(wèn)題管理、變更管理、配置管理,我們都按流程行事,杜絕一切頭腦風(fēng)暴決策和盲目操作。
ITIL強(qiáng)調(diào)規(guī)范:運(yùn)維人員按照組織的流程進(jìn)行各種標(biāo)準(zhǔn)化的運(yùn)維操作。約束本身就是為了保證大家的行為不偏離方向,少犯錯(cuò)誤。
ITIL強(qiáng)調(diào)分工:運(yùn)維人員按技能有效分工,有的負(fù)責(zé)服務(wù)臺(tái)的一線(xiàn)響應(yīng),有的負(fù)責(zé)二線(xiàn)事件和問(wèn)題處理,有的負(fù)責(zé)配置管理,一些負(fù)責(zé)變更審批等。運(yùn)維團(tuán)隊(duì)各司其職,相互配合。
這種管理機(jī)制非常適合IOE技術(shù)架構(gòu)時(shí)代。這種中心化的技術(shù)架構(gòu)結(jié)構(gòu)相對(duì)簡(jiǎn)單,顯然需要更穩(wěn)定的運(yùn)維操作。畢竟,所有的雞蛋都放在這些籃子里;此外,在這種集中式架構(gòu)下,業(yè)務(wù)變化并沒(méi)有那么頻繁。動(dòng)輒要經(jīng)過(guò)一個(gè)過(guò)程有點(diǎn)麻煩,但由于頻率低,還可以接受。
2、
但是,隨著企業(yè)IT技術(shù)架構(gòu)逐漸進(jìn)入互聯(lián)網(wǎng)架構(gòu),業(yè)務(wù)快速發(fā)展,強(qiáng)調(diào)IT更好地隨需而變,強(qiáng)調(diào)更敏捷地響應(yīng)業(yè)務(wù)需求,ITIL系統(tǒng)與現(xiàn)實(shí)有些格格不入。這時(shí),這個(gè)詞走進(jìn)了人們的視野(見(jiàn)圖1-2).
圖 1-2 運(yùn)維系統(tǒng)從 ITIL 遷移到
(英文和中文的組合)是一組流程、方法和系統(tǒng)的統(tǒng)稱(chēng),用于促進(jìn)開(kāi)發(fā)(應(yīng)用程序/軟件工程)、技術(shù)運(yùn)營(yíng)和質(zhì)量保證(QA)部門(mén)之間的溝通、協(xié)作和集成。隨著軟件行業(yè)越來(lái)越認(rèn)識(shí)到,為了按時(shí)交付軟件產(chǎn)品和服務(wù),開(kāi)發(fā)和運(yùn)營(yíng)必須緊密合作,這一點(diǎn)應(yīng)運(yùn)而生。
思路自然與ITIL不同
流程壓縮,響應(yīng)敏捷,效率大幅提升:
ITIL強(qiáng)調(diào)流程,但也帶來(lái)了效率的下降。在IOE時(shí)代,企業(yè)業(yè)務(wù)的變化并沒(méi)有那么頻繁,這種效率的下降并不明顯。但在互聯(lián)網(wǎng)架構(gòu)下,這種負(fù)面影響會(huì)被無(wú)限放大。
例如,運(yùn)營(yíng)商發(fā)布新的系統(tǒng)版本時(shí),往往要經(jīng)過(guò)源代碼提交、編譯、打包、發(fā)布到測(cè)試環(huán)境、UAT測(cè)試、bug修改、重測(cè),最后上線(xiàn)發(fā)布的過(guò)程。這個(gè)過(guò)程通常要經(jīng)過(guò) 3 -4 天。所以運(yùn)營(yíng)商的版本發(fā)布一般只能以月為單位,最快也只能以周為單位。與互聯(lián)網(wǎng)行業(yè)以天為單位的商業(yè)周期相比,這個(gè)系統(tǒng)對(duì)業(yè)務(wù)變化的響應(yīng)速度太慢了。
因此,該系統(tǒng)更加強(qiáng)調(diào)效率。在持續(xù)集成、持續(xù)自動(dòng)化測(cè)試、持續(xù)部署平臺(tái)、三維監(jiān)控、技術(shù)架構(gòu)優(yōu)化等各種自動(dòng)化工具的支持下,版本發(fā)布和運(yùn)維的過(guò)程被大大壓縮,效率大大降低。大大改善。應(yīng)用版本發(fā)布頻率可以用天甚至幾小時(shí)來(lái)衡量。這種為了效率而選擇性地拋棄一些拖拖拉拉的流程管理,是IT運(yùn)維管理適應(yīng)IT更好的按需變化的更好選擇,強(qiáng)調(diào)對(duì)業(yè)務(wù)需求的更敏捷響應(yīng)。
自動(dòng)化取代了受冗長(zhǎng)流程控制的規(guī)范流程:
另一方面,ITIL強(qiáng)調(diào)規(guī)范性,但是這種建立在流程上的規(guī)范性仍然存在很多缺陷。
按照上面運(yùn)營(yíng)商的例子,即使有完善的流程控制和規(guī)范,誰(shuí)也不能保證版本上線(xiàn)一定沒(méi)有問(wèn)題。各個(gè)版本上線(xiàn)前后,運(yùn)維團(tuán)隊(duì)的成員依然面目全非,戰(zhàn)戰(zhàn)兢兢。
原因在于,當(dāng)技術(shù)架構(gòu)的復(fù)雜性發(fā)展到一定階段時(shí),過(guò)程往往是無(wú)用的,甚至流于形式。在大規(guī)模、多類(lèi)型軟硬件設(shè)施運(yùn)維的情況下,單純依靠人的運(yùn)維體系最終將成為整個(gè)IT運(yùn)維的瓶頸。在這種情況下,很多企業(yè)嘗試將規(guī)范的操作細(xì)化為各種自動(dòng)化的操作場(chǎng)景,比如上面提到的持續(xù)集成、持續(xù)自動(dòng)化測(cè)試、持續(xù)部署、自動(dòng)化監(jiān)控和運(yùn)維等工具和平臺(tái)。這些高效、標(biāo)準(zhǔn)化的自動(dòng)化,徹底解放了運(yùn)維人員的壓力,
以 為例,他們的 SRE 工程師要求他們只有 30% 的時(shí)間花在事務(wù)性工作上,例如 on call,而 70% 的時(shí)間花在各種自動(dòng)化工具的開(kāi)發(fā)上,例如自動(dòng)化發(fā)布系統(tǒng)、監(jiān)控系統(tǒng)、日志系統(tǒng)、服務(wù)器資源分配和編排等。這些工具需要自己開(kāi)發(fā)和維護(hù)。這種在自動(dòng)化工具下的高效率自動(dòng)化操作,取代了在冗長(zhǎng)流程控制下的規(guī)范,這也是系統(tǒng)比較明顯的一個(gè)特點(diǎn)。
開(kāi)發(fā)運(yùn)維一體化:
同時(shí),ITIL背景下的分工也帶來(lái)了很多負(fù)面問(wèn)題。例如,運(yùn)營(yíng)團(tuán)隊(duì)的感知和認(rèn)同感較差。企業(yè)高層領(lǐng)導(dǎo)認(rèn)為,運(yùn)維工作沒(méi)有亮點(diǎn)和價(jià)值,是成本部門(mén);大部分運(yùn)維團(tuán)隊(duì)也認(rèn)為自己是“背鍋俠”。這么多年前,我在做一個(gè)項(xiàng)目的時(shí)候,聽(tīng)到某甲方運(yùn)維團(tuán)隊(duì)核心成員的抱怨:“年輕強(qiáng)者不努力,老板做運(yùn)營(yíng)和維護(hù)?!?/p>
這可能也是大多數(shù)運(yùn)營(yíng)商的心聲。誠(chéng)然存在運(yùn)維工作成果難以量化、企業(yè)高層重視不夠等因素,但這種壁壘太明顯的開(kāi)發(fā)運(yùn)維分工是也是重要原因之一。
企業(yè)開(kāi)發(fā)團(tuán)隊(duì)與運(yùn)維團(tuán)隊(duì)之間形成的鴻溝,使得開(kāi)發(fā)團(tuán)隊(duì)在規(guī)劃設(shè)計(jì)研發(fā)過(guò)程中過(guò)于關(guān)注功能的實(shí)現(xiàn),在一定程度上忽視了穩(wěn)定性、性能、可用??性以及運(yùn)維團(tuán)隊(duì)關(guān)心的其他因素。
同時(shí),運(yùn)維團(tuán)隊(duì)在開(kāi)發(fā)初期沒(méi)有反饋和修復(fù)這些問(wèn)題的渠道。結(jié)果,運(yùn)維團(tuán)隊(duì)不斷淪為“救火員”和“彎腰”,團(tuán)隊(duì)士氣低落,人才流失,運(yùn)維質(zhì)量下降,形成惡性循環(huán)。
因此,系統(tǒng)強(qiáng)調(diào)開(kāi)發(fā)與運(yùn)維一體化。
開(kāi)發(fā)運(yùn)維一體化使得開(kāi)發(fā)和運(yùn)維的信息透明化,運(yùn)維過(guò)程中遇到的問(wèn)題更有效的反饋給開(kāi)發(fā)團(tuán)隊(duì)。同時(shí),運(yùn)維的責(zé)任主體由單一的運(yùn)維團(tuán)隊(duì)向開(kāi)發(fā)運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變。這使得開(kāi)發(fā)團(tuán)隊(duì)也對(duì)運(yùn)維中遇到的故障負(fù)責(zé),因此開(kāi)發(fā)團(tuán)隊(duì)也需要將部分精力和資源投入到與運(yùn)維相關(guān)的穩(wěn)定性、性能和可用性的研發(fā)上。
當(dāng)然,這并不意味著ITIL系統(tǒng)完全過(guò)時(shí),而是需要將兩者結(jié)合企業(yè)的開(kāi)發(fā)運(yùn)維特點(diǎn),形成更有效的適合企業(yè)自身的開(kāi)發(fā)運(yùn)維體系。只有適合你的才是最好的。
三、運(yùn)維平臺(tái):從ITOM到AIOps
“要想做好工作,必須先利好工具。” 運(yùn)維工具是我們實(shí)現(xiàn)各種運(yùn)維操作的有效幫手。它解放了運(yùn)維人員,讓他們可以維護(hù)更多更好的各種IT系統(tǒng)。運(yùn)維系統(tǒng)的發(fā)展當(dāng)然離不開(kāi)運(yùn)維工具的發(fā)展。
1、手動(dòng)操作維護(hù)
20多年前,企業(yè)IT信息化剛剛起步,IT運(yùn)維基本上還處于刀耕火種的時(shí)代。沒(méi)有所謂的運(yùn)維工具,也沒(méi)有意識(shí)到它的必要性。幾個(gè)小姑娘定時(shí)在終端上敲命令,把讀數(shù)一絲不茍地記錄在紙質(zhì)表格上,在當(dāng)時(shí)算是比較規(guī)范的運(yùn)維實(shí)踐。原因是在那個(gè)年代,需要維護(hù)的IT系統(tǒng)數(shù)量很少,一個(gè)人就能看到。
在以IOE架構(gòu)為主導(dǎo)的時(shí)代,運(yùn)維團(tuán)隊(duì)的人工維護(hù)仍占絕大多數(shù)。當(dāng)然,他們中的一些人開(kāi)始總結(jié)自己的運(yùn)維操作,把一些常用的操作寫(xiě)成大量的腳本,以便在從事一些機(jī)械重復(fù)的事情時(shí)可以“偷懶”。但是,人工運(yùn)維仍占現(xiàn)階段大部分工作量。
2、ITOM
在IOE架構(gòu)時(shí)代后期,互聯(lián)網(wǎng)架構(gòu)開(kāi)始普及,同時(shí)隨著企業(yè)IT信息化的不斷深入,企業(yè)IT設(shè)備數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng),并開(kāi)始逐漸成為單靠人力是無(wú)法解決的。
以我服務(wù)過(guò)的一家運(yùn)營(yíng)商的客戶(hù)為例。最初的業(yè)務(wù)支持部門(mén)負(fù)責(zé)維護(hù)其核心系統(tǒng)。當(dāng)時(shí)只有 20 臺(tái)主機(jī)和幾個(gè)數(shù)據(jù)庫(kù)。然而,在接下來(lái)的幾年里,維護(hù)系統(tǒng)的規(guī)模增長(zhǎng)了十倍,運(yùn)維團(tuán)隊(duì)的規(guī)模也只有不到一倍。維護(hù)規(guī)模和運(yùn)維團(tuán)隊(duì)的能力只會(huì)形成越來(lái)越明顯的剪刀差,成為運(yùn)維管理的核心矛盾。
然后,當(dāng)企業(yè)開(kāi)始嘗試引入互聯(lián)網(wǎng)架構(gòu)時(shí),系統(tǒng)的復(fù)雜性急劇增加,維護(hù)目標(biāo)迅速增加。按照傳統(tǒng)的人工或半自動(dòng)維護(hù),更是不可能做到的。因此,為解決這一問(wèn)題,企業(yè)嘗試引入各種運(yùn)維工具,通過(guò)自動(dòng)化手段解決運(yùn)維人力和能力不足的問(wèn)題,IT運(yùn)維管理應(yīng)運(yùn)而生。
IT運(yùn)維管理(ITOM)是指對(duì)IT基礎(chǔ)設(shè)施和軟件應(yīng)用等對(duì)象的運(yùn)行情況進(jìn)行實(shí)時(shí)監(jiān)控和管理,并提供反饋服務(wù),確保監(jiān)控對(duì)象保持最佳運(yùn)行狀態(tài)。ITOM 領(lǐng)域的工具主要分為三大類(lèi),即:
IT運(yùn)維管理(ITOM)將從原來(lái)的手動(dòng)加被動(dòng)響應(yīng)轉(zhuǎn)變?yōu)楦咝?、自?dòng)化的運(yùn)維系統(tǒng)。
以上述運(yùn)營(yíng)商客戶(hù)為例,由于運(yùn)維人力的增長(zhǎng)無(wú)法與IT系統(tǒng)規(guī)模的增長(zhǎng)速度相匹配,企業(yè)很難對(duì)所有IT系統(tǒng)設(shè)備進(jìn)行例行狀態(tài)檢查每天早上大規(guī)模手術(shù)前。維持。
為了解決這個(gè)矛盾,我們專(zhuān)門(mén)部署實(shí)施了自動(dòng)化監(jiān)控運(yùn)維平臺(tái),將大量的日常操作交給機(jī)器。就像日常的檢查動(dòng)作一樣,只要定義了相關(guān)的檢查模板,機(jī)器就會(huì)按照我們定義的規(guī)范進(jìn)行十年的各種檢查操作。
如果檢查結(jié)果有異常,運(yùn)維人員手機(jī)上會(huì)出現(xiàn)報(bào)警信息,并通知相關(guān)運(yùn)維人員進(jìn)行處理。這種自動(dòng)化運(yùn)維工具系統(tǒng)的本質(zhì)是讓機(jī)器管理機(jī)器,將大量重復(fù)性、機(jī)械性的運(yùn)維工作交給機(jī)器執(zhí)行,有效降低了運(yùn)維人力資源的投入,也解放了運(yùn)維人員的精力。并投資于更重要的領(lǐng)域。
最近和運(yùn)維組的負(fù)責(zé)人聊了聊,了解到他們其實(shí)是把80%的運(yùn)維操作交給機(jī)器自動(dòng)完成。最后,他笑著說(shuō)道:“其實(shí)我們現(xiàn)在的運(yùn)維團(tuán)隊(duì)除了處理突發(fā)的系統(tǒng)故障之外,最常見(jiàn)的事務(wù)其實(shí)就是為應(yīng)用系統(tǒng)中的各個(gè)人員創(chuàng)建賬戶(hù)和分配權(quán)限。企業(yè),我們現(xiàn)在正在開(kāi)發(fā)代碼也可以自動(dòng)執(zhí)行此操作。”
3、基于運(yùn)維數(shù)據(jù)分析ITOA
ITOM系統(tǒng)為運(yùn)維帶來(lái)自動(dòng)化,使IT運(yùn)維更加高效。然而,ITOM仍然未能打破運(yùn)維工作對(duì)操作者經(jīng)驗(yàn)的依賴(lài),往往缺乏分析能力。它雖然可以收集運(yùn)維數(shù)據(jù),但無(wú)法洞察這些數(shù)據(jù)中包含的信息,更不可能對(duì)數(shù)據(jù)做出認(rèn)知。轉(zhuǎn)型的本質(zhì)。
比如在處理分析各種故障的過(guò)程中,我們?nèi)匀灰揽坎僮魅藛T的經(jīng)驗(yàn)甚至直覺(jué)來(lái)分析處理it運(yùn)維技術(shù),在運(yùn)維決策過(guò)程中頭腦風(fēng)暴的例子層出不窮。這是因?yàn)閭鹘y(tǒng)的 ITOM 工具往往缺乏數(shù)據(jù)分析能力。雖然可以采集部分運(yùn)維數(shù)據(jù),但由于數(shù)據(jù)采集不完整,缺乏數(shù)據(jù)整合,數(shù)據(jù)之間缺乏聯(lián)系和分析手段,運(yùn)維人員無(wú)法洞察其中包含的信息。這些數(shù)據(jù),并不能對(duì)運(yùn)維背后的知識(shí)進(jìn)行本質(zhì)的提升。
因此,運(yùn)維人員開(kāi)始探索基于運(yùn)維數(shù)據(jù)分析的ITOA。大數(shù)據(jù)技術(shù)的成熟,使得海量運(yùn)維數(shù)據(jù)的分析成為可能。參考業(yè)務(wù)分析領(lǐng)域的例子,我們從運(yùn)維數(shù)據(jù)的采集、處理、分析、可視化等方面著手建立綜合運(yùn)維數(shù)據(jù)分析體系。我們的運(yùn)維IT系統(tǒng)無(wú)時(shí)無(wú)刻不在產(chǎn)生海量數(shù)據(jù),其產(chǎn)生的數(shù)據(jù)量甚至可能超過(guò)我們的應(yīng)用系統(tǒng)。因此,運(yùn)維分析自然是大數(shù)據(jù)的應(yīng)用場(chǎng)景。
基于運(yùn)維數(shù)據(jù)實(shí)現(xiàn)ITOA
首先要解決的是數(shù)據(jù)收集問(wèn)題:
由于運(yùn)維系統(tǒng)中的數(shù)據(jù)是多種多樣的,既有監(jiān)控系統(tǒng)直接采集的結(jié)構(gòu)化數(shù)據(jù),也有各種應(yīng)用日志、機(jī)器日志等非結(jié)構(gòu)化數(shù)據(jù)。
為了方便我們后續(xù)的數(shù)據(jù)分析,我們需要將難以分析的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。比如圖1-3是Web日志中的一行記錄,里面包含了很多有用的信息,比如客戶(hù)端的IP,客戶(hù)端使用的客戶(hù)端,訪(fǎng)問(wèn)的頁(yè)面信息,以及訪(fǎng)問(wèn)時(shí)間等關(guān)鍵信息。
圖 1-3 Web 日志中的一行
我們利用有效的工具對(duì)這些信息進(jìn)行分割,形成結(jié)構(gòu)化的信息,持續(xù)存儲(chǔ)在運(yùn)維大數(shù)據(jù)中心,如圖1-4所示:
圖 1-4 結(jié)構(gòu)化信息
大數(shù)據(jù)技術(shù)的發(fā)展也為我們提供了存儲(chǔ)海量運(yùn)維數(shù)據(jù)的基礎(chǔ):
我們可以通過(guò)大數(shù)據(jù)平臺(tái)建設(shè)我們的運(yùn)維大數(shù)據(jù)中心,從我們整個(gè)運(yùn)維IT環(huán)境中采集的運(yùn)維數(shù)據(jù)將在此基礎(chǔ)上進(jìn)行存儲(chǔ)和整合。這樣,我們就可以改變ITOM系統(tǒng)中數(shù)據(jù)分散,難以關(guān)聯(lián)分析的缺陷,因?yàn)閿?shù)據(jù)需要更多的聯(lián)系和關(guān)聯(lián),才能充分發(fā)揮其背后的價(jià)值。
例如,ITSM 系統(tǒng)中的一個(gè)孤立事件可能很難看到,但從操作數(shù)據(jù)分析的角度來(lái)看,它可能會(huì)與歷史上一系列相同的事件進(jìn)行比較,以發(fā)現(xiàn)在附近點(diǎn)的各種數(shù)據(jù)指標(biāo)之間的差異。時(shí)間。種類(lèi)。運(yùn)維人員層層篩選和分析,最終通過(guò)分析找出運(yùn)維數(shù)據(jù)背后的規(guī)律,最后總結(jié)成知識(shí)庫(kù)和相關(guān)的優(yōu)化動(dòng)作。這是所有用數(shù)據(jù)說(shuō)話(huà),用數(shù)據(jù)分析代替經(jīng)驗(yàn)決策的好結(jié)果。
數(shù)據(jù)檢索能力和數(shù)據(jù)可視化能力提供保障:
當(dāng)然,運(yùn)維數(shù)據(jù)分析除了簡(jiǎn)單地提供大數(shù)據(jù)存儲(chǔ)和分析的載體外,還需要一些必要的能力來(lái)保證運(yùn)維人員能夠更好地利用運(yùn)維數(shù)據(jù):
平臺(tái)需要具備強(qiáng)大的數(shù)據(jù)檢索能力。運(yùn)維數(shù)據(jù)分析平臺(tái)存儲(chǔ)大量運(yùn)維數(shù)據(jù)。運(yùn)維人員在嘗試建立和驗(yàn)證探索性場(chǎng)景時(shí),往往會(huì)反復(fù)檢索和查詢(xún)特定數(shù)據(jù)。如果運(yùn)維數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)查詢(xún)速度很慢或者查詢(xún)角度很少,那么運(yùn)維人員搭建場(chǎng)景的時(shí)間就會(huì)延長(zhǎng)甚至不可能。因此,運(yùn)維人員可以通過(guò)平臺(tái)實(shí)現(xiàn)關(guān)鍵詞、統(tǒng)計(jì)功能、單條件、多條件、模糊多維搜索功能it運(yùn)維技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的秒級(jí)查詢(xún),
該平臺(tái)需要強(qiáng)大的數(shù)據(jù)可視化能力。人們常說(shuō)“一張圖抵千言”。運(yùn)維人員經(jīng)常通過(guò)各個(gè)系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并生成各種實(shí)時(shí)報(bào)表,對(duì)各類(lèi)運(yùn)維數(shù)據(jù)(如應(yīng)用日志、事務(wù)日志、系統(tǒng)日志)進(jìn)行統(tǒng)計(jì)分析. 多維度、多角度的深度分析和可視化,將自己的分析結(jié)果和經(jīng)驗(yàn)表達(dá)和推廣給他人。因此,平臺(tái)中具有各種旋轉(zhuǎn)數(shù)據(jù)透視表和定期報(bào)告功能非常重要。
可應(yīng)用于多種業(yè)務(wù)場(chǎng)景:
另外,運(yùn)維數(shù)據(jù)分析不僅用在運(yùn)維范圍內(nèi),在我們的經(jīng)驗(yàn)中,還可以用在風(fēng)險(xiǎn)分析、審計(jì)、情感分析等業(yè)務(wù)場(chǎng)景中。通過(guò)收集當(dāng)前環(huán)境下的運(yùn)維數(shù)據(jù),整合現(xiàn)有ITOM工具,利用大數(shù)據(jù)和數(shù)據(jù)分析技術(shù),快速定位、排查和預(yù)測(cè)IT系統(tǒng)各方面的問(wèn)題。對(duì)業(yè)務(wù)環(huán)節(jié)各個(gè)分布式系統(tǒng)的數(shù)據(jù)進(jìn)行整體分析,合理優(yōu)化IT服務(wù),挖掘關(guān)鍵業(yè)務(wù)KPI指標(biāo),反饋業(yè)務(wù)方,幫助其做出明智的決策。
4、AIOps
艾瑞研究院分析預(yù)測(cè),到2020年ITOM/ITOA市場(chǎng)規(guī)模將達(dá)到1.14.5億元(見(jiàn)圖1-5),但增速逐漸放緩,AIOps就是ITOM , ITOA 延續(xù)。
圖1-5 艾瑞預(yù)測(cè)2020年中國(guó)ITOM/ITOA市場(chǎng)規(guī)模將達(dá)到1.14.5億元
通過(guò)大數(shù)據(jù)和人工智能技術(shù)分析日志和運(yùn)維數(shù)據(jù),發(fā)現(xiàn)更多運(yùn)維人員沒(méi)有意識(shí)到的潛在系統(tǒng)安全和運(yùn)維問(wèn)題。
在2016年發(fā)布的報(bào)告中,首次提出了基于大數(shù)據(jù)和算法(IT)的IT運(yùn)維概念。隨著人工智能的迅速崛起,AIOps的概念已經(jīng)從基于數(shù)據(jù)的分析擴(kuò)展到基于人工智能,期望通過(guò)大數(shù)據(jù)、現(xiàn)代機(jī)器學(xué)習(xí)和更先進(jìn)的分析技術(shù)提供主動(dòng)、人性化和動(dòng)態(tài)的可視化。或間接提升當(dāng)前傳統(tǒng)IT運(yùn)維(監(jiān)控、自動(dòng)化、服務(wù)臺(tái))能力。
AIOps真正的應(yīng)用和實(shí)現(xiàn)時(shí)間還很短。從目前的應(yīng)用來(lái)看,主要是基于運(yùn)維數(shù)據(jù)的集中化,以及機(jī)器學(xué)習(xí)算法在各種數(shù)據(jù)分析和挖掘工作中的應(yīng)用。主要應(yīng)用場(chǎng)景包括:
當(dāng)然,AIOps的應(yīng)用場(chǎng)景遠(yuǎn)不止這些。正是因?yàn)檫@個(gè)概念出現(xiàn)的時(shí)間不長(zhǎng),所以我們有更多的空間去詳細(xì)探索??偟膩?lái)說(shuō),從人工運(yùn)維、ITOM、ITOA、AIOps的發(fā)展路徑,體現(xiàn)了運(yùn)維自動(dòng)化、數(shù)據(jù)化、智能化的主要發(fā)展趨勢(shì)。
四、運(yùn)維核心:從關(guān)注平臺(tái)到數(shù)據(jù)資產(chǎn)
企業(yè)技術(shù)架構(gòu)的變化導(dǎo)致運(yùn)維管理方式的變化,運(yùn)維工具也在不斷與時(shí)俱進(jìn)。
總體而言,IT系統(tǒng)運(yùn)維正朝著自動(dòng)化、智能化方向發(fā)展。作為IT運(yùn)維工作本身,相信運(yùn)維工作的難度在降低,運(yùn)維的工作量也在降低。畢竟大部分工作都是交給機(jī)器來(lái)完成的。作為IT運(yùn)營(yíng)商,我們未來(lái)的方向是什么,或者說(shuō)未來(lái)的出路在哪里?
1、關(guān)注平臺(tái)
在經(jīng)典的企業(yè)架構(gòu)中,雖然不同的企業(yè)架構(gòu)框架理論有不同的視角,但它們對(duì)企業(yè)架構(gòu)內(nèi)容的劃分大體是一致的,基本上從以下幾個(gè)方面(或者至少包括以下幾個(gè)方面)對(duì)企業(yè)架構(gòu)進(jìn)行了描述:
一般來(lái)說(shuō),從上到下會(huì)分為業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)和基礎(chǔ)技術(shù)架構(gòu)。傳統(tǒng)上,IT系統(tǒng)運(yùn)維的主要對(duì)象是企業(yè)IT環(huán)境中的各種硬件和軟件平臺(tái),如各種主機(jī)、存儲(chǔ)、數(shù)據(jù)庫(kù)、中間件等。企業(yè)IT運(yùn)維團(tuán)隊(duì)一般關(guān)注技術(shù)架構(gòu)層面和少數(shù)應(yīng)用架構(gòu)級(jí)別(見(jiàn)圖 1-6).
圖 1-6 TOGAF 開(kāi)放組架構(gòu)框架的企業(yè) IT 架構(gòu)模型
2、數(shù)據(jù)資產(chǎn)
然而,時(shí)代在不斷前進(jìn),企業(yè)的基礎(chǔ)技術(shù)架構(gòu)也在不斷創(chuàng)新。云化、開(kāi)源、高彈性的互聯(lián)網(wǎng)架構(gòu)技術(shù)架構(gòu)逐漸成為企業(yè)架構(gòu)的主流。大量新技術(shù)的出現(xiàn)和應(yīng)用,使得集中式系統(tǒng)架構(gòu)被打破,系統(tǒng)架構(gòu)越來(lái)越云化、分布式。
首先,分布式架構(gòu)和基于云的架構(gòu)使系統(tǒng)的單點(diǎn)崩潰。隨著整體數(shù)據(jù)穩(wěn)定性的提高,對(duì)單臺(tái)設(shè)備穩(wěn)定性的要求降低。在這個(gè)前提下,數(shù)據(jù)架構(gòu)的工作更加重要,需要更多的數(shù)據(jù)架構(gòu)師和運(yùn)維人員參與到早期的系統(tǒng)業(yè)務(wù)架構(gòu)分析、數(shù)據(jù)架構(gòu)規(guī)劃、數(shù)據(jù)架構(gòu)設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)等工作中。
其次,如前所述,運(yùn)維相關(guān)的工具和產(chǎn)品不斷完善,不足。集中化、自動(dòng)化、智能化運(yùn)維產(chǎn)品和工具的出現(xiàn),使IT系統(tǒng)運(yùn)維智能化、自動(dòng)化成為可能,使運(yùn)維人員從重復(fù)性機(jī)械工作中解放出來(lái),減少運(yùn)維人員的工作量,讓運(yùn)維人員承擔(dān)更重要的工作。
此外,各種軟硬產(chǎn)品也在不斷的完善自己。各種軟硬件產(chǎn)品的使用和維護(hù)“和”已成為一種趨勢(shì):
最后,隨著信息技術(shù)特別是物聯(lián)網(wǎng)的廣泛應(yīng)用,以及網(wǎng)絡(luò)購(gòu)物、移動(dòng)支付、共享經(jīng)濟(jì)、智能家居等新業(yè)態(tài)新模式的蓬勃發(fā)展,全球數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)和海量聚合。隨著數(shù)據(jù)量更大、維度更豐富,需要更好的數(shù)據(jù)管理方法和更好的數(shù)據(jù)利用,構(gòu)建以數(shù)據(jù)為核心的數(shù)字經(jīng)濟(jì)。核心是數(shù)據(jù)資產(chǎn)管理。
在數(shù)據(jù)資產(chǎn)化趨勢(shì)下,企業(yè)IT系統(tǒng)運(yùn)維的重點(diǎn)必須從單一的穩(wěn)定性保障轉(zhuǎn)變?yōu)閿?shù)據(jù)資產(chǎn)變現(xiàn)、增值等更高的數(shù)據(jù)資產(chǎn)管理和運(yùn)營(yíng)要求。
業(yè)務(wù)側(cè)數(shù)據(jù)資產(chǎn)應(yīng)用存在諸多問(wèn)題
但是,制約企業(yè)數(shù)據(jù)資產(chǎn)應(yīng)用的問(wèn)題還很多。
企業(yè)數(shù)據(jù)變現(xiàn)能力薄弱,數(shù)據(jù)應(yīng)用和運(yùn)營(yíng)的專(zhuān)業(yè)技術(shù)能力不足,難以完成預(yù)測(cè)數(shù)據(jù)的應(yīng)用場(chǎng)景。
運(yùn)維人員的未來(lái)趨勢(shì)
運(yùn)維人員作為IT技術(shù)與業(yè)務(wù)的接口,必然要求運(yùn)維人員向上移動(dòng)到數(shù)據(jù)資產(chǎn)管理的層面。
數(shù)據(jù)資產(chǎn)管理是將數(shù)據(jù)作為企業(yè)資產(chǎn)進(jìn)行計(jì)劃、控制和提供的一組業(yè)務(wù)功能,包括與要控制的數(shù)據(jù)相關(guān)的計(jì)劃、政策、計(jì)劃、項(xiàng)目、流程、計(jì)劃和程序的開(kāi)發(fā)、執(zhí)行和監(jiān)督、保護(hù)、交付和增加數(shù)據(jù)資產(chǎn)的價(jià)值。沒(méi)有高質(zhì)量的數(shù)據(jù),企業(yè)很難做出明智有效的決策。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)資產(chǎn)管理比傳統(tǒng)時(shí)代更為重要。為企業(yè)提供透明、可靠、優(yōu)質(zhì)的數(shù)據(jù)環(huán)境。它將成為企業(yè)的核心競(jìng)爭(zhēng)力,幫助企業(yè)提供更精準(zhǔn)的產(chǎn)品和服務(wù),降低成本。和控制風(fēng)險(xiǎn)。我們將企業(yè)數(shù)據(jù)資產(chǎn)管理概括為數(shù)據(jù)資產(chǎn)管理的五星級(jí)模型,分為五個(gè)相互關(guān)聯(lián)的層次,即數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理、數(shù)據(jù)運(yùn)營(yíng)、數(shù)據(jù)共享和數(shù)據(jù)變現(xiàn)(見(jiàn)圖1-7) .
圖1-7 新居網(wǎng)絡(luò)數(shù)據(jù)資產(chǎn)管理五星級(jí)模型
時(shí)代在變,運(yùn)維人員的工作重點(diǎn)也需要隨著時(shí)代的變化而變化。這是一個(gè)不變的規(guī)則。以數(shù)據(jù)資產(chǎn)為核心,以治理和運(yùn)營(yíng)為手段,以共享和變現(xiàn)為目標(biāo),是未來(lái)企業(yè)運(yùn)維人員從基礎(chǔ)設(shè)施運(yùn)維向以數(shù)據(jù)資產(chǎn)為中心的運(yùn)維的大趨勢(shì)。
五、總結(jié)
經(jīng)過(guò)近幾年的發(fā)展,企業(yè)IT應(yīng)用系統(tǒng)的建設(shè)和運(yùn)維逐漸從以業(yè)務(wù)為導(dǎo)向向以客戶(hù)為導(dǎo)向轉(zhuǎn)變。傳統(tǒng)的IT架構(gòu)、運(yùn)維模式、運(yùn)維體系,甚至運(yùn)維對(duì)象都受到不同程度的沖擊和改造。
在這一轉(zhuǎn)型過(guò)程中,企業(yè)IT運(yùn)維面臨著業(yè)務(wù)需求不斷疊加、應(yīng)用需求交付周期不斷縮短、用戶(hù)體驗(yàn)需求不斷提升、數(shù)據(jù)資產(chǎn)價(jià)值不斷提升等問(wèn)題。隨需應(yīng)變已成為當(dāng)前企業(yè)應(yīng)用系統(tǒng)轉(zhuǎn)型的主題,這要求企業(yè)擁有更靈活、可擴(kuò)展性更高的IT技術(shù)架構(gòu)、更敏捷高效的運(yùn)維系統(tǒng)、更智能的運(yùn)維。工具系統(tǒng)能夠更快速地響應(yīng)用戶(hù)端的業(yè)務(wù)需求,把滿(mǎn)足用戶(hù)的核心需求作為整個(gè)企業(yè)的共同愿景。
同時(shí),智能運(yùn)維工具系統(tǒng)基于數(shù)據(jù)化運(yùn)維。通過(guò)大數(shù)據(jù)、機(jī)器學(xué)習(xí)和更先進(jìn)的人工智能等分析技術(shù),直接或間接地提供主動(dòng)性、人性化和動(dòng)態(tài)可視化的能力。提升現(xiàn)有IT運(yùn)維能力,以更自動(dòng)化的運(yùn)維操作解放運(yùn)維人員,讓運(yùn)維人員更多地投入到數(shù)據(jù)分析等其他工作中,促進(jìn)企業(yè)核心業(yè)務(wù)發(fā)展.
最后,企業(yè)IT系統(tǒng)運(yùn)維的重點(diǎn)從技術(shù)架構(gòu)回歸到信息本身。企業(yè)的決策支持、運(yùn)營(yíng)管理、風(fēng)險(xiǎn)控制、產(chǎn)品供應(yīng)、營(yíng)銷(xiāo)活動(dòng)和其他服務(wù)都需要高質(zhì)量和可靠的數(shù)據(jù)。運(yùn)維人員在角色上處于技術(shù)與業(yè)務(wù)的交界處,是企業(yè)數(shù)據(jù)資產(chǎn)的理想管理者和推動(dòng)者。未來(lái),運(yùn)維人員的工作重心將在很大程度上從技術(shù)架構(gòu)轉(zhuǎn)向數(shù)據(jù)架構(gòu)。
24小時(shí)免費(fèi)咨詢(xún)
請(qǐng)輸入您的聯(lián)系電話(huà),座機(jī)請(qǐng)加區(qū)號(hào)