首頁(yè)>>>技術(shù)>>>計費  計費產(chǎn)品

探針式BOSS業(yè)務(wù)監控系統實(shí)戰分析

唐濤 李靜 朱曄 2010/03/03

—.探針式BOSS業(yè)務(wù)監控系統實(shí)戰分析

  運營(yíng)商當前的業(yè)務(wù)運營(yíng)支撐系統(BOSS)存在先天不足,既沒(méi)有能力感知BOSS系統的運營(yíng)狀態(tài),也沒(méi)有能力預知故障的發(fā)生。3G時(shí)代,BOSS系統如何才能告別“無(wú)知”,先于用戶(hù)發(fā)現問(wèn)題,變被動(dòng)為主動(dòng),提高運營(yíng)商業(yè)務(wù)質(zhì)量?

  3G的正式運營(yíng),帶來(lái)了國內三大運營(yíng)商(中國移動(dòng)、中國聯(lián)通、中國電信)之間白熱化的競爭。用戶(hù)的持有量是各運營(yíng)商實(shí)力的一個(gè)重要衡量指標,而網(wǎng)絡(luò )質(zhì)量和業(yè)務(wù)能力則決定著(zhù)運營(yíng)商能否持有較多用戶(hù)。對網(wǎng)絡(luò )質(zhì)量和業(yè)務(wù)能力的保障涉及到運營(yíng)商內部多個(gè)部門(mén)以及工作環(huán)節,其中業(yè)務(wù)支撐是十分重要的一環(huán):業(yè)務(wù)運營(yíng)支撐系統(BOSS)故障會(huì )導致?tīng)I業(yè)廳關(guān)門(mén)、客戶(hù)投訴升級等重大問(wèn)題的發(fā)生,嚴重影響公司業(yè)務(wù)的正常運營(yíng)。BOSS系統如何實(shí)現對業(yè)務(wù)能力的保障?如何使運營(yíng)商業(yè)務(wù)支撐運營(yíng)工作全面提升?

  BOSS系統的先天不足

  當前運營(yíng)商的BOSS系統普遍存在著(zhù)先天不足:既沒(méi)有能力感知BOSS系統的運營(yíng)狀態(tài),也沒(méi)有能力預知故障的發(fā)生。很多地方運營(yíng)商的BOSS系統不同于傳統的電信設備系統,并不具備電信級的能力標準,而是附加了很多具有中國特色、甚至各省特色的IT系統,在可靠性與可維護性上都與電信級產(chǎn)品相差甚遠。這種先天不足主要體現在“可監控性差”上。各個(gè)運營(yíng)商都經(jīng)歷過(guò)或正在經(jīng)歷著(zhù)被動(dòng)的BOSS維護模式三部曲:“客戶(hù)投訴—發(fā)現故障—故障修復”。

  如何讓BOSS運維人員能夠快速發(fā)現、有效解決業(yè)務(wù)問(wèn)題,全面了解業(yè)務(wù)運營(yíng)系統的各種運營(yíng)信息以及用戶(hù)的感知呢?

  幾大運營(yíng)商都在千方百計尋求自身BOSS業(yè)務(wù)支撐運營(yíng)能力的提升。以中國移動(dòng)為例,中國移動(dòng)集團公司曾經(jīng)下發(fā)過(guò)相關(guān)業(yè)務(wù)技術(shù)規范,多家省移動(dòng)公司都做過(guò)相關(guān)的嘗試。其中,上海移動(dòng)曾在BOSS系統改進(jìn)和提升方面取得了一定的突破,其具體方式是:直接在BOSS系統中增加維護代碼模式。這種做法的優(yōu)點(diǎn)是時(shí)效性強,缺點(diǎn)是維護代碼與BOSS系統捆綁過(guò)于密切,難以實(shí)現大范圍普及。

  BOSS也能實(shí)現監控

  中國移動(dòng)浙江公司在借鑒了上海移動(dòng)BOSS改進(jìn)模式的經(jīng)驗之后,經(jīng)過(guò)為期二年的探索及驗證,構建了探針式BOSS業(yè)務(wù)監控系統。探針式BOSS業(yè)務(wù)監控系統提出了“以BOSS業(yè)務(wù)監控為核心”的理念,采用“探針式提取、指標引導、建模驅動(dòng)”的方式,打造一站式BOSS業(yè)務(wù)監控系統,既實(shí)現了對現有實(shí)際業(yè)務(wù)系統的有效監控,也滿(mǎn)足了BOSS運營(yíng)管理的需要。

  探針式BOSS業(yè)務(wù)監控系統由五層組成:數據采集層、業(yè)務(wù)建模層、數據聚集層、告警管控層、分析展示層。這五個(gè)不同的層次在運營(yíng)商業(yè)務(wù)能力的提升和運營(yíng)管理水平的提高上都起到了什么作用呢?

  數據采集層: 是整個(gè)監控系統的基礎,用來(lái)提供核心的業(yè)務(wù)健康度建模和可用性建模所需要的平臺、應用、業(yè)務(wù)等數據。

  系統數據采集共采用了三類(lèi)探針:A式探針直接模擬BOSS前臺業(yè)務(wù)操作,采集BOSS門(mén)戶(hù)各種業(yè)務(wù)應用的可用狀態(tài); B式探針負責采集A式探針發(fā)起的前臺業(yè)務(wù)所觸發(fā)的BOSS后臺數據操作日志統計值,以及BOSS后臺系統運營(yíng)狀態(tài),并將其發(fā)送業(yè)務(wù)監控系統; C式探針從BOSS接入交換機中全量采集BOSS交易記錄,即第一時(shí)間采集到實(shí)際BOSS運營(yíng)的狀態(tài)。

  綜上所述,這三類(lèi)探針能夠獲取到從業(yè)務(wù)發(fā)起、業(yè)務(wù)處理、業(yè)務(wù)交易到業(yè)務(wù)完成全過(guò)程的用戶(hù)能夠感知到的所有業(yè)務(wù)數據,為從用戶(hù)感知角度進(jìn)行業(yè)務(wù)監控提供了堅實(shí)的基礎。

  業(yè)務(wù)建模層: 是整個(gè)監控系統的核心,是將業(yè)務(wù)進(jìn)行有形化管理、量化衡量的高效手段。該業(yè)務(wù)建模層中涵蓋了幾乎所有的BOSS管理資源要素,包括業(yè)務(wù)、應用、服務(wù)及其他平臺類(lèi)資源,這些信息都建立并實(shí)時(shí)更新于企業(yè)集中建設的符合ITIL標準的CMDB(配置資源數據庫,其中每一子項便是一個(gè)CI配置資源項)中。基于CMDB中動(dòng)態(tài)調整的實(shí)時(shí)CI項和相互關(guān)系,關(guān)聯(lián)上能夠反映業(yè)務(wù)當前狀況的KPI指標,以結構化的模型框架為指導,建立完整的業(yè)務(wù)CI/KPI指標體系,繪制出以業(yè)務(wù)為中心的BOSS系統視圖,全面展現其健康度和可用性。

  CI/KPI指標體系的建立是以業(yè)務(wù)為主線(xiàn),按照“CI業(yè)務(wù)-應用-平臺”的分層結構,針對每一層設定支撐域、運營(yíng)域和服務(wù)域的指標分類(lèi)標準,并在這些指標的基礎上通過(guò)關(guān)系推導和加權計算創(chuàng )建業(yè)務(wù)健康度和可用性量化模型,將業(yè)務(wù)的層層嵌套、互相關(guān)聯(lián)與后臺軟硬件平臺之間的關(guān)系都量化出來(lái),并綜合為直觀(guān)有效的業(yè)務(wù)運營(yíng)狀況指標; 作為監控系統的核心,業(yè)務(wù)建模層為告警管控層的預警和故障定位提供了衡量基礎和分析邏輯,如果健康指標超出經(jīng)驗化閾值,業(yè)務(wù)預警可幫助維護人員將業(yè)務(wù)隱患消除于萌芽之中。

  CI/KPI模型的建立,成功地將傳統監控系統的監控難點(diǎn)轉變?yōu)榱咙c(diǎn),通過(guò)對模型中父子業(yè)務(wù)間關(guān)系、業(yè)務(wù)與后臺資源間關(guān)系的結構化梳理,多維度數據的采集計算,有效量化了業(yè)務(wù)健康度指標。同時(shí),模型中所綜合的業(yè)務(wù)可用性、業(yè)務(wù)辦理量、后臺資源使用情況等全方位信息,尤為適合公司管理人員了解業(yè)務(wù)通體運營(yíng)情況。

  數據聚集層: 在這一層,系統將經(jīng)過(guò)CI/KPI模型、按不同業(yè)務(wù)規則結構化之后的三類(lèi)用戶(hù)體驗數據進(jìn)行匯聚:業(yè)務(wù)監控數據(業(yè)務(wù)可用性、業(yè)務(wù)量、業(yè)務(wù)辦理時(shí)長(cháng)、業(yè)務(wù)的后臺服務(wù)器負載情況等)、配置數據(從CMDB中定時(shí)同步配置項信息和配置關(guān)聯(lián)信息),業(yè)務(wù)感性數據(業(yè)務(wù)量、積壓量和投訴等信息),使得運維人員不僅能夠從IT支撐視角掌握業(yè)務(wù)運行狀況,還能直觀(guān)了解到在當前業(yè)務(wù)運行情況之下客戶(hù)層面的使用感知。

圖:探針式BOSS業(yè)務(wù)監控系統架構圖

圖: 采集層探針

  告警管控層: 本層提供基于預警模型的預警管理和追根溯源的告警定位處理。

  預警模型是基于對系統中超過(guò)二年的業(yè)務(wù)全方位數據基于運維經(jīng)驗的深入挖掘分析所得。當預警模型條件都滿(mǎn)足的情況下,通過(guò)工單系統發(fā)出相關(guān)的預警工單,使運維人員及時(shí)處理,避免實(shí)際的業(yè)務(wù)中斷。

  告警定位處理提供了基于邏輯拓撲的全路徑故障資源定位和基于業(yè)務(wù)操作耗時(shí)細分的故障環(huán)節定位功能。通過(guò)對邏輯拓撲中Web、中間件和數據庫層的全路徑業(yè)務(wù)模擬,能將故障具體到集群中的某個(gè)服務(wù)器和某個(gè)應用端口; 通過(guò)包括網(wǎng)絡(luò )耗時(shí)和后臺耗時(shí)等的業(yè)務(wù)操作耗時(shí)細分,究竟是網(wǎng)絡(luò )問(wèn)題還是后臺問(wèn)題也就能清晰地展現在運維人員面前。

  探針式業(yè)務(wù)監控管理系統顛覆了傳統監控系統的的監控視角,將原來(lái)自下而上評估業(yè)務(wù)狀態(tài)和影響,變成了以結構化模型框架為指導,以對體系化的CI/KPI指標進(jìn)行監控來(lái)了解業(yè)務(wù)狀態(tài)、分析預警業(yè)務(wù)風(fēng)險、定位業(yè)務(wù)故障。

  分析展示層: 以三維立體業(yè)務(wù)全景視圖的方式,向運維人員直觀(guān)方便地展現當前業(yè)務(wù)運營(yíng)狀況,可一站視查看業(yè)務(wù)、邏輯、物理三個(gè)層面的運營(yíng)特征。

  在每一層的具體業(yè)務(wù)、設備的展示上,又把性能數據、告警數據和配置信息同時(shí)展現,實(shí)現了真正的業(yè)務(wù)三維立體展現。豐富的三維立體業(yè)務(wù)監控視圖能夠更為有機地監控管理業(yè)務(wù)及系統平臺數據,大幅度提升運維管控效率的同時(shí),極大地方便各類(lèi)人員查看操作。探入式BOSS運營(yíng)監控實(shí)現了一站式的BOSS系統監、管、控。

  豐富的業(yè)務(wù)三維立體展現和鉆取方式的層層深入分析,降低了運維人員分析業(yè)務(wù)與支撐之間的關(guān)系難度,從而不斷改進(jìn)系統支撐短板,提高公司總體的業(yè)務(wù)支撐服務(wù)水平。

  探針式BOSS

  實(shí)際應用效果


圖:業(yè)務(wù)三維立體分析展示


  經(jīng)過(guò)一段時(shí)間的系統運行及不斷改善,探針式BOSS監控系統對中國移動(dòng)浙江公司業(yè)務(wù)質(zhì)量的提高和運營(yíng)能力的改善起到了相當大的作用:

  1. 提供有效的業(yè)務(wù)問(wèn)題預警

  探針式BOSS業(yè)務(wù)監控系統平臺正式運行后,平均每月針對業(yè)務(wù)效率的有效預警達29次,預警有效率和覆蓋率均達到96%以上,相關(guān)人員據此進(jìn)行主動(dòng)式運維服務(wù),使得月均故障數下降了34%。而且,在處理效率上,根據分析系統正式運行以來(lái)的告警數據,發(fā)現趨勢預警時(shí)間點(diǎn)比原有的平臺級告警和客服報障平均提前42分鐘。

  2. 故障處理時(shí)長(cháng)明顯縮短

  CI/KPI模型

  系統試商用以來(lái),依靠業(yè)務(wù)耗時(shí)細分、前后臺資源模型等系統工具,實(shí)現了業(yè)務(wù)故障的快速定位,明顯縮短了故障處理時(shí)長(cháng),與系統啟用前相比,業(yè)務(wù)故障處理時(shí)長(cháng)平均縮短了42%。

  3. 運營(yíng)分析效率明顯提升

  探針式BOSS業(yè)務(wù)監控系統為業(yè)務(wù)應用維護和系統平臺維護人員提供了大量業(yè)務(wù)運營(yíng)分析數據,運維人員原來(lái)需要分別從BOSS系統、平臺監控系統和工作流平臺界面查看對應的數據,而今只需要IT運營(yíng)管理系統一個(gè)界面就可以完成所有運維所需數據的查看。同時(shí),通過(guò)運營(yíng)平臺的7大類(lèi)25張運維報表的自動(dòng)生成功能,大大節約了定期業(yè)務(wù)維護的時(shí)間,有效提升了運營(yíng)分析效率。

  4. 客戶(hù)滿(mǎn)意度明顯改善

  依托探針式BOSS業(yè)務(wù)監控系統,業(yè)務(wù)維護支撐人員的工作模式逐步轉為業(yè)務(wù)問(wèn)題主動(dòng)發(fā)現、業(yè)務(wù)故障主動(dòng)解決。同時(shí),由于能直觀(guān)地以前臺人員視角審視業(yè)務(wù)故障和問(wèn)題,維護人員更能了解內部客戶(hù)感知,解決問(wèn)題做到有的放矢,明顯改善了客戶(hù)滿(mǎn)意度。

  由于以業(yè)務(wù)為中心、以客戶(hù)為導向,探針式BOSS業(yè)務(wù)監控系統使運營(yíng)商業(yè)務(wù)支撐部門(mén)的運維目標與業(yè)務(wù)部門(mén)的目標更加一致,從而共同為客戶(hù)提供優(yōu)質(zhì)的服務(wù),同時(shí)在客戶(hù)中也進(jìn)一步樹(shù)立了運營(yíng)商優(yōu)質(zhì)服務(wù)的形象:

  對內,它轉變了業(yè)務(wù)支撐部門(mén)運維員工的思路,從基礎平臺架構的監控向業(yè)務(wù)運營(yíng)管理轉變,加強了員工對于業(yè)務(wù)的了解程度,拓展了業(yè)務(wù)支撐部門(mén)員工的發(fā)展規劃道路,并且該平臺通過(guò)自動(dòng)化監控、準確故障定位診斷功能,能夠有效減輕員工工作量,避免了監控運維人員陷入疲于奔命,忙于救火,增加了員工的滿(mǎn)意度。

  對外,它能夠及時(shí)有效、甚至提前發(fā)現業(yè)務(wù)的使用問(wèn)題,提升業(yè)務(wù)的可用性,從而使客戶(hù)能夠更順暢地使用運營(yíng)商提供的各項業(yè)務(wù),減少了實(shí)際發(fā)生業(yè)務(wù)中斷時(shí)的客戶(hù)投訴數量,提升了客戶(hù)滿(mǎn)意度和忠誠度,在保持運營(yíng)商市場(chǎng)占有率、提升服務(wù)競爭力方面發(fā)揮了重要作用。

  鏈接

  當前運營(yíng)商BOSS系統面臨的主要問(wèn)題

  以三大運營(yíng)商中運營(yíng)管理能力比較領(lǐng)先的中國移動(dòng)為例,目前中國移動(dòng)各省公司的BOSS運營(yíng)維護管理面臨的主要問(wèn)題包括:

  (1) 現有監控手段比較初級

  傳統的BOSS監控僅能簡(jiǎn)單地收集主機、數據庫的參數狀態(tài),不能從業(yè)務(wù)應用的整體有機地進(jìn)行監控和管理。

  (2) 業(yè)務(wù)應用監控困難

  缺乏對業(yè)務(wù)“軟故障”的監控手段,對漸進(jìn)式的業(yè)務(wù)故障很難做到及時(shí)發(fā)現,缺乏有效的指標表征業(yè)務(wù)應用的運營(yíng)狀態(tài),往往在不知不覺(jué)中故障已經(jīng)發(fā)生。

  (3) 無(wú)法快速定位故障

  缺乏業(yè)務(wù)與后臺資源關(guān)聯(lián)模型,發(fā)生系統故障后不能準確定位業(yè)務(wù)影響; 系統后臺處理仍處于“黑盒子”狀態(tài),得知業(yè)務(wù)故障后也無(wú)法快速定位故障原因,客觀(guān)上延長(cháng)了故障處理時(shí)間。

  (4) 運營(yíng)信息分散,分析不到位

  業(yè)務(wù)實(shí)時(shí)效率、辦理量、成功率和服務(wù)投訴等數據分散存放在各自的生產(chǎn)系統中,維護人員為獲得這些信息,需不斷到生產(chǎn)系統的后臺上去提取數據,嚴重影響了生產(chǎn)系統的安全性。
共 2 頁(yè):1 2 

計算機世界報



相關(guān)閱讀:
某移動(dòng)公司NG-BOSS虛擬化云計算平臺實(shí)踐解析 2010-02-25
全業(yè)務(wù)運營(yíng)時(shí)代 電信服務(wù)質(zhì)量如何管? 2010-02-09
新一代業(yè)務(wù)交付平臺架構解析 2010-01-04
3G計費系統建設要面向未來(lái) 2009-12-24
下一代無(wú)線(xiàn)網(wǎng)絡(luò )對系統OSS的要求 2009-12-08

分類(lèi)信息:  電信_與_計費技術(shù)

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 连云港市| 枣庄市| 盐山县| 左贡县| 淮阳县| 鲁甸县| 江山市| 昌图县| 三原县| 洪湖市| 砚山县| 永德县| 安顺市| 德令哈市| 江安县| 竹山县| 彭山县| 武川县| 绩溪县| 南部县| 沙雅县| 漳浦县| 邹平县| 安龙县| 合作市| 青冈县| 左云县| 宣城市| 岳西县| 潢川县| 青冈县| 岳池县| 高台县| 天台县| 牙克石市| 高州市| 义乌市| 吴旗县| 金沙县| 绥化市| 巩留县| http://444 http://444 http://444 http://444 http://444 http://444