2020-03-23 10:51:32
來源:CZKJ科技
當指揮中心顯控系統運行異常時,該如何處理?
傳統的處理方式:首先召集各個運維崗位進行自檢,查看各自負責的設備、應用組件、系統是否運行正常。如果沒有發現問題,則召集設備提供商、系統開發商、系統集成商一起對系統進行“會診”,查找故障原因,整個流程常常會超過一周時間。所以,傳統運維部門常常被稱為“救火”隊員,依靠人工巡檢的工作方式,不但工作被動,而且效率低下。因此,分布式系統除了應符合我們之前提到六大標準外,還需要為用戶提供智能化的運維管理服務,也就是今日與大家分享的判別分布式系統優劣的第七大標準。
七看運維管理
專業的運維管理解決方案涵蓋如下要點:
1.動態展示系統連接的拓撲圖
與分布式相關的周邊系統,尤其是網絡系統,都與最終畫面上屏的響應速度、圖像質量、操作延遲、拼接同步性等效果息息相關。分布式節點通過交換機、路由器等網絡設備連接,任何一個網絡節點故障、掉線,都會使得某路畫面黑屏,這時需要能夠及時定位到故障點,才可以在最短時間內解決網絡故障。
2.圖形化查看設備詳細運行指標
3.具備故障告警與預警提示
4.建立完善并有記錄的運維工作流程
擁有了設備的監測與告警,用戶可以最短時間內掌握系統故障點,但如何解決這些故障,依舊是一個值得深究的問題。分布式系統具有無限的擴展性與覆蓋度,往往部署在大地域中。管理分布式的運維人員也常常不是一個人,而是上下級單位、各個機構多人配合。
效率最高的運維解決方案是多人分工配合,如管理員在指揮中心對整個分布式系統監管,發現故障點后,遠程指導操作員實際到現場處理,并可通過系統實時判斷問題是否解決。這就需要分布式系統提供一個科學的運維工作流程,從發現問題、派工單下發、到現場解決與問題反饋,運維人員只需按照標準化的運維流程來操作,并在系統內記錄相關工作信息,即可高效率的完成運維管理工作。
5.覆蓋系統級別的統計與分析
真正的分布式運維管理是一門系統性的科學與工作,應該做到“精細化運維”。所謂“精細化運維”,即不僅僅對設備運行狀態進行監管,也要收集并記錄運維工作流中的告警響應時間、工單解決時間、故障處理時間等信息,同時通過數據的挖掘與關聯,對各類設備的故障率、高風險參數、視頻質量影響率等進行分析,生成綜合性的多維度系統運行報表,幫助用戶持續改善分布式系統的運維管理工作與應用方式。
沒有運維管理的業務系統相當于人體失去了免疫系統,不僅無法預防系統風險,而且系統的安全性、穩定性完全不受保障……只有具備專業智能化運維管理的分布式系統,才是真正完整、可靠的分布式系統。