大型企業(yè)在建立信息系統(tǒng)時,往往很注重硬件體系建設以及應用體系建設,在投入大量的硬件資源、人力資源,并建立了多套應用系統(tǒng)和運維系統(tǒng)后,卻達不到預期的效果,甚至隨著信息化架構(gòu)規(guī)模的日益擴大,工作量劇烈攀升,問題頻發(fā),導致信息化部門疲于應付解決各種問題而無法進行更有效的管理和服務升級。
因此,在信息化體系建設中,監(jiān)控運維體系必須作為重點模塊進行規(guī)劃建設,為后續(xù)的業(yè)務運行狀態(tài)監(jiān)測、故障分析處理、數(shù)據(jù)展示、數(shù)據(jù)分析、業(yè)務優(yōu)化等實現(xiàn)基礎的監(jiān)控保障和充足的數(shù)據(jù)支撐。
本期華云大咖說,邀請到華云數(shù)據(jù)高級售前顧問周宇,暢談大型企業(yè)在信息化建設和運維中常遇的問題,并進行經(jīng)驗分享。
核心觀點:
1.企業(yè)成長過程中,隨著業(yè)務規(guī)模的增加,運維體系也必須升級到標準的多級架構(gòu),比如,L0級的服務臺或者遠程監(jiān)控中心提供7*24熱線及遠程支持服務、遠程監(jiān)控及跟蹤服務;L1級初級工程師團隊處理標準服務和故障;L2級專業(yè)的工程師團隊處理復雜需求和故障,再依托L3級專家團隊和外部廠商團隊來解決更深層次的服務需求和故障問題。
2.大型集團型企業(yè)需要全方位的基礎設施和業(yè)務監(jiān)控體系,并且監(jiān)控體系必須考慮到集團企業(yè)的分散特性,必須支持分布式部署,同時對報表、大屏、告警關(guān)聯(lián)、流程整合等一系列增強功能也必須考慮在內(nèi)。
3.監(jiān)控平臺要具備基本的監(jiān)控能力:硬件監(jiān)控、網(wǎng)絡設備監(jiān)控、存儲監(jiān)控、鏈路監(jiān)控、云監(jiān)控、動環(huán)、主機監(jiān)控、中間件監(jiān)控、數(shù)據(jù)庫監(jiān)控、容器監(jiān)控。
4.當企業(yè)業(yè)務系統(tǒng)發(fā)生故障時,監(jiān)控系統(tǒng)應該能夠分析發(fā)生了什么事情,什么時間發(fā)生的,對應哪個職能部門,影響范圍多大,核心故障在哪里,而不是按時間順序挨個處理告警,花費大量時間解決外圍問題。
5.在數(shù)據(jù)展示方面,要考慮提供多種視角,比如需要滿足公司領(lǐng)導層、運維管理層、運維一線人員等多種職能組的不同需求,因此需要建立多套不同視角維度的數(shù)據(jù)展示模塊。
6.總的來說,大型分布式監(jiān)控系統(tǒng)建設應緊密結(jié)合業(yè)務,注重監(jiān)控對象和告警的業(yè)務邏輯關(guān)聯(lián)性,并逐步向智能運維邁進,為企業(yè)解決實際監(jiān)控難題,規(guī)劃整體運維平臺,避免重復建設,助力企業(yè)加快實現(xiàn)數(shù)字化轉(zhuǎn)型。