了解最新公司動(dòng)態(tài)及行業(yè)資訊
多年來(lái),云供應(yīng)商停機(jī)并不是新聞:
運(yùn)維失誤,硬盤故障服務(wù)器運(yùn)維技術(shù),機(jī)房被雷擊,調(diào)試時(shí)輸入錯(cuò)誤的命令,不同的錯(cuò)誤會(huì)導(dǎo)致不同的BUG,最終導(dǎo)致云服務(wù)故障,造成較大損失。 AWS的費(fèi)良洪先生在回憶云計(jì)算的發(fā)展歷程時(shí)曾說(shuō):“在我眼里,云計(jì)算是十年的積淀,十年的教訓(xùn)?!?故障一直是云服務(wù)命運(yùn)的雙胞胎。 一次次的斷層之痛,都在逼著云服務(wù)廠商和用戶加速成長(zhǎng),但這一次對(duì)于初創(chuàng)公司“ CNC”來(lái)說(shuō),實(shí)在是太過(guò)痛苦了。
InfoQ 認(rèn)為,云供應(yīng)商和用戶在此類云服務(wù)故障事件中吸取了寶貴的教訓(xùn)。
對(duì)于廠商來(lái)說(shuō),需要學(xué)習(xí)的是:
注意錯(cuò)誤
供應(yīng)商工程師在編寫代碼時(shí)應(yīng)捕獲異常服務(wù)器運(yùn)維技術(shù),然后進(jìn)行適當(dāng)?shù)腻e(cuò)誤處理。
盡可能緩存動(dòng)態(tài)內(nèi)容,甚至是靜態(tài)內(nèi)容
Redis緩存、Nginx緩存、CDN都是緩存甚至靜態(tài)化內(nèi)容的一些手段。 雖然多級(jí)緩存維護(hù)起來(lái)比較麻煩,但是當(dāng)?shù)讓臃?wù)出現(xiàn)問(wèn)題時(shí),它們是不可多得的戰(zhàn)略緩沖。 緩存給你買來(lái)的半小時(shí)到幾個(gè)小時(shí)幾乎就是救命靈芝,可以幫助你度過(guò)最艱難的時(shí)刻(,相對(duì)冷靜地尋找解決方案,緊急發(fā)布新頁(yè)面,或者遷移服務(wù),把損失降到最低。
失敗演練很重要
一個(gè)系統(tǒng)的高可用有很多因素,不僅僅是系統(tǒng)架構(gòu),更重要的是——高可用運(yùn)維。 對(duì)于高可用運(yùn)維,平時(shí)的故障演練非常重要。 每個(gè)季度擲一次骰子,隨機(jī)關(guān)閉一個(gè) IDC 一天。 借助 Chaos,路透社每年還進(jìn)行一次大規(guī)模的故障演練——災(zāi)難演練。 目的是提高應(yīng)對(duì)意外故障的能力。
充分告知用戶云計(jì)算服務(wù)并非 100% 可靠
云提供商在提供云服務(wù)時(shí),應(yīng)告知用戶存在極小概率的云存儲(chǔ)損壞或數(shù)據(jù)丟失。 建議用戶自行備份或購(gòu)買云備份。 如果不告知或強(qiáng)調(diào)不夠,很多用戶會(huì)認(rèn)為云提供商將對(duì)數(shù)據(jù)丟失造成的所有損失負(fù)責(zé)。
尊重用戶,妥善處理危機(jī)
如果你是一家科技公司,你會(huì)更相信技術(shù)而不是管理。 相信技術(shù)就會(huì)用技術(shù)解決問(wèn)題,相信管理,那么只有制度、流程、價(jià)值觀才會(huì)解決問(wèn)題。 沒(méi)有人愿意看到問(wèn)題發(fā)生; 但出現(xiàn)問(wèn)題后,最重要的是解決問(wèn)題,反思問(wèn)題,吸取教訓(xùn)。 ——陳浩
對(duì)于用戶來(lái)說(shuō),需要學(xué)習(xí)的是:
檢查核心依賴性并增加關(guān)鍵服務(wù)的冗余
很多云服務(wù),比如AWS自己的系統(tǒng),在構(gòu)建上都有冗余的特性,但是完全使用會(huì)增加很多管理復(fù)雜度和成本支出,因?yàn)榭绛h(huán)境之間的數(shù)據(jù)同步需要云用戶自己來(lái)處理。 大多數(shù)企業(yè)不會(huì)選擇以上方案,但單純的數(shù)據(jù)備份在短短幾個(gè)小時(shí)的周期內(nèi)起不到任何作用。 但這是一件值得去做的事情。
主動(dòng)做好備份
根據(jù)美國(guó)標(biāo)準(zhǔn)TIA-942《數(shù)據(jù)中心通信基礎(chǔ)設(shè)施標(biāo)準(zhǔn)》,從可用性、穩(wěn)定性和安全性分為四個(gè)級(jí)別:T1,可用性為99.67%; T2,可用性為99.749%; T3,可用性為99.982%; T4,99.995% 的可用性。 年平均停機(jī)時(shí)間也從0.4小時(shí)到28.8小時(shí)不等,這意味著每年都可能因?yàn)楦鞣N原因出現(xiàn)不可用。 不管有多少個(gè)“9”的云服務(wù),其可靠性仍然不是100%。 用戶需要自己做備份。 當(dāng)云服務(wù)出現(xiàn)故障時(shí),有恢復(fù)數(shù)據(jù)的通道,而不是像“邊疆CNC”一樣被蒙蔽了雙眼。
整理/江湖“云計(jì)算一姐”之稱的上海云暢網(wǎng)絡(luò)科技創(chuàng)始人兼CEO顧一楠,GLG簽約中國(guó)云計(jì)算行業(yè)信息化顧問(wèn),致力于用一站式人工智能運(yùn)維管理平臺(tái),國(guó)際一流的專業(yè)服務(wù)和標(biāo)準(zhǔn)化流程,幫助中國(guó)企業(yè)選好云、用好云、用好云。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)