了解最新公司動(dòng)態(tài)及行業(yè)資訊
我在一家游戲公司做運(yùn)維有一段時(shí)間了,分享一下我的經(jīng)驗(yàn)。
游戲公司的運(yùn)維可以分為幾大模塊:
1、網(wǎng)站
2、游戲
3、支持
4、數(shù)據(jù)
5、安全
6、成本
網(wǎng)站
技術(shù)是web的技術(shù),如lvs、lnmp、.cdn、持續(xù)更新CI、人工運(yùn)維等。搜索中可以解決的常見問題,結(jié)構(gòu)和估計(jì)量根據(jù)情況增減以實(shí)際業(yè)務(wù)規(guī)模為準(zhǔn)。由于沒有涉及到電商業(yè)務(wù),所以搜索和大數(shù)據(jù)業(yè)務(wù)會(huì)有所不同,細(xì)節(jié)我們就不展開了。日均pv保持在500、600w是正常的,推廣期間會(huì)形成高峰。
游戲是公司的主營業(yè)務(wù),但也是行業(yè)相對封閉的一部分。由于這類產(chǎn)品基本上是自己開發(fā)和修補(bǔ)的,如果有bug,會(huì)開發(fā)并提供熱更新解決方案,并通過運(yùn)維來實(shí)現(xiàn)。剩下的就是換衣服、版本更新、和服等日常操作了。
游戲項(xiàng)目的生命周期也與錯(cuò)誤的數(shù)量有關(guān)。上線初期,各種廢話都會(huì)糾纏運(yùn)維。以下是筆者遇到的一些反例:idc值班人員在巡查時(shí)踢了機(jī)柜電源導(dǎo)致宕機(jī)游戲進(jìn)程句柄泄露;游戲存在bug,資源需要臨時(shí)維護(hù);游戲出現(xiàn)意外的峰值帶寬,導(dǎo)致用戶卡頓;運(yùn)營商帶寬小的用戶認(rèn)為網(wǎng)卡(長寬聯(lián)通斷網(wǎng)還想玩游戲);機(jī)房光纖被切斷;手動(dòng)工具配置更新錯(cuò)誤;數(shù)據(jù)庫表結(jié)構(gòu)不一致等;有很多很多,想想運(yùn)維,說好的一點(diǎn)是挑戰(zhàn)自己,運(yùn)維的丑點(diǎn)就是抖M!
項(xiàng)目穩(wěn)定后,所有 ,等流程都梳理清楚,通過手動(dòng)工具實(shí)現(xiàn)后,運(yùn)維每天晚上需要做的就是看監(jiān)控(起床)
支持
監(jiān)控系統(tǒng)服務(wù)器運(yùn)維,我只知道所有核心游戲進(jìn)程都被監(jiān)控,但是關(guān)鍵業(yè)務(wù)數(shù)據(jù)需要開發(fā)并提供。要么是數(shù)值匹配錯(cuò)誤,要么是有漏洞被玩家刷了。其他對cpu、內(nèi)存、io、磁盤空間、網(wǎng)絡(luò)帶寬的監(jiān)控也要扎實(shí)做好,定期做好相關(guān)告警和統(tǒng)計(jì)報(bào)表。也是運(yùn)維的一項(xiàng)重要工作。
支持客服朋友,查看日志,想辦法給客服朋友他們想看的數(shù)據(jù)。 Sql是最好的,可以教,可以優(yōu)化。
他們通常需要支持運(yùn)營市場的是報(bào)告、轉(zhuǎn)化率、arpu、返回玩家信息等,主要是為了吹噓自己的會(huì)議和迎合老板。
知識(shí)管理也是支持的一部分。文檔、工具使用指南、歷史故障記錄、優(yōu)化解決方案等各類知識(shí)都可以消化分享給部門,甚至跨部門。
它也是支持的一部分,可以使用,還有廚師等,你必須了解并能夠掌握其中之一的使用。容器技術(shù)目前可以作為玩具和吹牛的資本,不要放在線環(huán)境中。
數(shù)據(jù)
數(shù)據(jù)也是一個(gè)大坑。運(yùn)維必須糾正它在這個(gè)環(huán)節(jié)中的作用。很多原始數(shù)據(jù)在運(yùn)維手里,但是需求端可能只需要一小部分,但是查詢需求可以說是五花八門,玩死開發(fā),開發(fā)會(huì)議和運(yùn)維討論,有時(shí)侯太坑的需求直接被堵死了。在游戲行業(yè),每個(gè)公司的標(biāo)準(zhǔn)都不一樣服務(wù)器運(yùn)維,都是根據(jù)自己公司的需求來執(zhí)行的。關(guān)系型數(shù)據(jù)庫、大表、開放式數(shù)據(jù)庫、剖析工具、需求和實(shí)現(xiàn)方案,需要有一定的了解。
查詢業(yè)務(wù)將涉及軟硬件選型、ssd、cpu、顯存數(shù)據(jù)庫、主從架構(gòu)讀寫分離等技術(shù)。
安全
運(yùn)維又一個(gè)大坑。在被黑和注入之前,運(yùn)維和研發(fā)都覺得自己的架構(gòu)是安全的。
流量命中、DDos 也是我考慮將所有業(yè)務(wù)遷移到云端的原因。傳統(tǒng)IDC沒有可靠的流量清洗系統(tǒng)。基本上同一個(gè)機(jī)房??被攻擊,你們都吃虧。如果受害者是你自己,你基本上無法在 24 小時(shí)內(nèi)恢復(fù)業(yè)務(wù)。切換到云端后,去年承受了高達(dá) 63G/s 的功率沖擊,但也花了不少錢。
費(fèi)用
在公司成立初期,被認(rèn)為過于開放,無法擴(kuò)大規(guī)模。它買了很多服務(wù)器,在帶寬和其他資源上花了很多錢。一旦框架成熟穩(wěn)定,老板就會(huì)開始考慮成本控制,是否把沒用的服務(wù)器發(fā)回去賣掉,帶寬能不能降低。幸運(yùn)的是,如果所有服務(wù)器都是 linux,則無需擔(dān)心 的版權(quán)問題。粗略測算,之前的業(yè)務(wù)切換到云端后,運(yùn)維成本增加到原來的1/3。
最后,將您的業(yè)務(wù)放到云端確實(shí)是一個(gè)不錯(cuò)的選擇。其實(shí)上云之后還要處理一系列的問題,這里就不多說了。
24小時(shí)免費(fèi)咨詢
請輸入您的聯(lián)系電話,座機(jī)請加區(qū)號(hào)