Optus आउटेज से सीखें: 5G विश्वसनीयता, अकाउंटेबिलिटी और AI-ड्रिवन मॉनिटरिंग से MTTR घटाकर ग्राहक भरोसा कैसे बनाया जाए।
5G नेटवर्क आउटेज से सबक: AI से भरोसा कैसे बने
19/12/2025 को ऑस्ट्रेलिया के टेल्को Optus की इमरजेंसी कॉल (Triple Zero) सेवा में हुए आउटेज की स्वतंत्र समीक्षा ने एक कड़वा सच उजागर किया: समस्या सिर्फ “टेक्निकल फेलियर” नहीं थी—प्रक्रियाएँ थीं, पर निभाई नहीं गईं। नतीजा, चेतावनी संकेत समय पर पढ़े नहीं गए, बैकएंड फेलियर पर प्रतिक्रिया धीमी रही, और संकट-प्रबंधन की कड़ी टूट गई।
इस तरह की घटना भारत सहित हर 5G बाज़ार के लिए चेतावनी है, खासकर 2025 के अंत में जब डिजिटल भुगतान, e-Governance, टेलीमेडिसिन, और इमरजेंसी रिस्पॉन्स—सब नेटवर्क पर टिके हैं। दूरसंचार और 5G में AI वाली इस सीरीज़ में मैं इसे एक केस-स्टडी की तरह देखता हूँ: क्या AI ऐसी विफलताओं को रोक सकता था? और “अकाउंटेबिलिटी” को ऑपरेशनल सिस्टम में बदला कैसे जाए?
Optus केस-स्टडी: आउटेज ने असल में क्या दिखाया?
सीधा जवाब: यह आउटेज बताता है कि नेटवर्क विश्वसनीयता का सबसे बड़ा दुश्मन अक्सर “टूल्स की कमी” नहीं, बल्कि प्रोसेस-डिसिप्लिन, अलर्ट-ट्रायेज, और जिम्मेदारी की अस्पष्टता होती है।
स्वतंत्र रिपोर्ट में दो बातें खास रहीं:
- नेटवर्क डिपार्टमेंट और कॉन्ट्रैक्टर (Nokia) में प्रोसेस फॉलो नहीं हुआ। गलत प्रक्रियाएँ चुनी गईं, जांचें कमजोर रहीं, अलर्ट को गंभीरता से नहीं लिया गया।
- कॉल सेंटर ऑपरेशन का ऑफशोरिंग (ऑस्ट्रेलिया के बाहर) भी एक कारक बताया गया, जिससे बैकएंड फेल होने पर पहचान/एस्केलेशन में देरी हुई।
बोर्ड चेयर ने सार्वजनिक रूप से कहा कि विफलताएँ “अस्वीकार्य” थीं और व्यक्तिगत जवाबदेही तय होगी—फाइनेंशियल पेनल्टी से लेकर टर्मिनेशन तक। यह बयान इंडस्ट्री में एक मजबूत संकेत देता है: नेटवर्क अपटाइम अब सिर्फ KPI नहीं; भरोसे और सार्वजनिक सुरक्षा का मुद्दा है।
भारत के संदर्भ में यह क्यों और भी गंभीर है?
भारत में स्केल सबसे बड़ा रिस्क-एम्प्लीफायर है। लाखों-करोड़ों यूज़र, UPI-भुगतान, रेलवे/एयरपोर्ट कनेक्टिविटी, स्मार्ट शहर, और बढ़ती 5G SA/NSA जटिलता—इन सबमें एक “प्रोसेस चूक” का असर बहुत बड़ा हो सकता है।
यहाँ सवाल यह नहीं कि आउटेज होगा या नहीं। सवाल यह है कि:
- क्या हम मिनटों में डिटेक्ट करेंगे?
- क्या हम सही टीम तक सही एस्केलेशन पहुँचाएंगे?
- क्या हमारी कस्टमर कम्युनिकेशन स्पष्ट होगी?
यही वह जगह है जहाँ AI, सही तरीके से लगाया जाए, तो वास्तविक वैल्यू देता है।
AI किस तरह आउटेज “रोक” नहीं, “छोटा” करता है?
सीधा जवाब: AI आउटेज के रिस्क को तीन स्तरों पर घटाता है—पहले संकेत पहचानना, सही निर्णय सुझाना, और रिकवरी ऑटोमेट करना।
टेलीकॉम नेटवर्क में असली चुनौती डेटा की कमी नहीं, बल्कि डेटा का शोर (noise) है: लाखों अलर्ट, लॉग्स, KPI/KQI, ट्रेस, और टिकट्स। इंसान हर बार पैटर्न नहीं पकड़ सकता। AI यहां तीन काम अच्छी तरह कर सकता है:
1) अलर्ट नॉइज़ घटाना (Event Correlation)
समस्या: अलग-अलग सिस्टम से हजारों अलर्ट आते हैं; टीम “अलर्ट-थकान” (alert fatigue) में असली खतरे को मिस कर देती है।
AI समाधान:
- मल्टी-सोर्स अलर्ट को जोड़कर एक “रूट-कॉज़ क्लस्टर” बनाना
- डुप्लीकेट/कम-प्राथमिकता अलर्ट हटाकर P1/P2 की स्पष्ट सूची देना
- बदलाव (change) और अलर्ट का संबंध पहचानना: “इस रिलीज़/कॉन्फ़िग के बाद यह स्पाइक आया”
परिणाम: रिस्पॉन्स समय घटता है, और “गलत प्रक्रिया चुनने” का रिस्क कम होता है।
2) फेलियर की शुरुआती भविष्यवाणी (Anomaly + Forecast)
समस्या: बैकएंड सिस्टम अक्सर धीरे-धीरे degrade करते हैं—लेटेंसी बढ़ती है, री-ट्राई बढ़ते हैं, क्यूज़ भरती हैं—और फिर अचानक गिरते हैं।
AI समाधान:
- टाइम-सीरीज़ मॉडल से लेटेंसी/एरर-रेट/क्यू-डेप्थ का पूर्वानुमान
- बेसलाइन से हटते ही “असामान्य” व्यवहार पकड़ना
- इमरजेंसी कॉल/क्रिटिकल सर्विस के लिए अलग संवेदनशील थ्रेशहोल्ड
यह “आउटेज रोकना” नहीं, पर आउटेज को घंटों से मिनटों में समेटने का रास्ता बनाता है।
3) ऑटो-रिमेडिएशन (Runbooks + AI)
समस्या: प्लेबुक होती हैं, पर संकट में सही कदम चुनना कठिन होता है।
AI समाधान:
- इवेंट पैटर्न के आधार पर सही
runbookसुझाना - सुरक्षित दायरे में ऑटो-एक्शन: सर्विस रीस्टार्ट, ट्रैफिक री-रूट, कैपेसिटी शिफ्ट
- “ह्यूमन-इन-द-लूप” approval: AI सुझाव दे, इंसान स्वीकृति दे
Optus रिपोर्ट का मूल संदेश यही था: “प्रोसेस थे, पर किए नहीं गए।” AI का सही उपयोग “प्रोसेस पालन” को डिफ़ॉल्ट व्यवहार बना सकता है।
कॉल सेंटर और इमरजेंसी चैनल: AI से रिस्पॉन्स कैसे तेज़ होता है?
सीधा जवाब: इमरजेंसी सर्विस में कॉल सेंटर अक्सर पहला संकेत होता है; AI इसे early-warning सेंसर बना सकता है।
रिपोर्ट में कहा गया कि कॉल सेंटर निर्देशों में यह मान्यता नहीं थी कि ऑपरेटर Triple Zero कठिनाइयों का पहला अलर्ट चैनल हो सकते हैं। यह “प्रोसेस डिज़ाइन” की समस्या है—और इसे AI से मजबूत किया जा सकता है।
1) रियल-टाइम कॉल इंटेलिजेंस
- कॉल ट्रांसक्रिप्ट/की-वर्ड से “सर्विस डाउन”, “कॉल नहीं लग रही”, “नेटवर्क busy” जैसी शिकायतों का क्लस्टर
- 5–10 मिनट की विंडो में स्पाइक दिखते ही नेटवर्क NOC को ऑटो एस्केलेशन
2) एजेंट-असिस्टेड ट्रायेज
- एजेंट को स्क्रीन पर ठीक वही सवाल सुझाना जो फॉल्ट-आइसोलेशन में मदद करे
- लोकेशन, डिवाइस, नेटवर्क टाइप, और समय के आधार पर संभावित कारण
3) ग्राहक संचार का “सच और समय”
आउटेज में सबसे ज्यादा नुकसान भरोसे को होता है। AI-आधारित स्टेटस पेज/IVR/WhatsApp बॉट से:
- प्रभावित इलाकों की पहचान
- अनुमानित रिकवरी समय (ETR) को लगातार अपडेट
- “क्या करें अभी” निर्देश (जैसे Wi‑Fi calling/alternate route)
यहाँ मेरी राय साफ है: टेल्को में कस्टमर ट्रस्ट सिर्फ नेटवर्क से नहीं, कम्युनिकेशन से भी बनता है।
अकाउंटेबिलिटी को सिस्टम में कैसे उतारें: 5G+AI के लिए ऑपरेशनल ब्लूप्रिंट
सीधा जवाब: अकाउंटेबिलिटी भाषण नहीं है; यह मेट्रिक्स, ऑडिट, और ऑटोमेशन का संयोजन है।
Optus ने व्यक्तिगत जवाबदेही की बात की—यह सही दिशा है, पर टिकाऊ समाधान तब बनता है जब संगठन इसे “डिज़ाइन” करे। नीचे एक व्यावहारिक ब्लूप्रिंट है, जिसे कोई भी ऑपरेटर/एंटरप्राइज़ 90 दिनों में शुरू कर सकता है।
1) SLO/SLA को KQI से जोड़िए
केवल नेटवर्क KPI (जैसे throughput) पर्याप्त नहीं। 5G में KQI (कॉल सफल होना, सेटअप टाइम, इमरजेंसी रूटिंग सफलता) महत्वपूर्ण हैं।
- क्रिटिकल सर्विस के लिए अलग SLO
- SLO ब्रेक होते ही P1 इन्सिडेंट ऑटो-ट्रिगर
2) “चेंज” को रिस्क-स्कोर दीजिए
कई बड़े आउटेज बदलाव (config/release) के बाद होते हैं।
- हर चेंज का AI-आधारित रिस्क स्कोर
- हाई-रिस्क चेंज पर कैनरी/ब्लू-ग्रीन डिप्लॉयमेंट
- ऑटो-रोलबैक के नियम
3) इन्सिडेंट टाइमलाइन ऑटो-डॉक्यूमेंटेशन
संकट के बाद सबसे विवादास्पद सवाल होता है: “किसने कब क्या किया?”
- अलर्ट → टिकट → चैट/कॉल → कमांड लॉग: सब एक टाइमलाइन में
- पोस्ट-इन्सिडेंट रिव्यू के लिए “फैक्ट-फर्स्ट” रिपोर्ट
4) कॉन्ट्रैक्टर/वेंडर गवर्नेंस में डेटा पारदर्शिता
रिपोर्ट में कॉन्ट्रैक्टर पर भी टिप्पणी थी। इसलिए:
- वेंडर रनबुक, ऑन-कॉल RACI, और एस्केलेशन SLA लिखित
- साझा ऑब्ज़र्वेबिलिटी डैशबोर्ड
- “मुझे नहीं पता था” को सिस्टम से हटाइए
“People Also Ask” शैली: कुछ सीधे जवाब
क्या AI नेटवर्क आउटेज पूरी तरह खत्म कर सकता है?
नहीं। लेकिन AI आउटेज की आवृत्ति घटाता है और रिकवरी समय तेज़ करता है। असली जीत MTTR (Mean Time To Repair/Restore) कम करना है।
5G में AI लगाने की सबसे पहली जगह कौन-सी है?
मेरे अनुभव में इवेंट कोरिलेशन + ऑटो-टिकटिंग + रनबुक सुझाव सबसे तेज़ ROI देते हैं, क्योंकि यह NOC की रोज़मर्रा की अड़चनें हटाते हैं।
क्या कॉल सेंटर ऑफशोरिंग हमेशा गलत है?
नहीं, पर क्रिटिकल सेवाओं में 24/7 लोकल निर्णय-क्षमता, भाषा/प्रोटोकॉल समझ, और त्वरित एस्केलेशन बहुत मायने रखते हैं। हाइब्रिड मॉडल बेहतर रहता है।
आगे का रास्ता: भरोसा “पॉलिसी” से नहीं, प्रैक्टिस से बनता है
Optus की घटना और उसके बाद “अकाउंटेबिलिटी” का वादा यह याद दिलाता है कि टेलीकॉम में एक आउटेज सिर्फ असुविधा नहीं—कभी-कभी जीवन-मरण का सवाल बन जाता है। 2025 में, जब 5G नेटवर्क पर स्मार्ट शहरों से लेकर इमरजेंसी सेवाएँ निर्भर हैं, AI-ड्रिवन नेटवर्क मॉनिटरिंग, प्रेडिक्टिव एनालिटिक्स, और ऑटोमेटेड इन्सिडेंट रिस्पॉन्स अब वैकल्पिक नहीं रहे।
अगर आप ऑपरेटर, एंटरप्राइज़ IT, या 5G प्राइवेट नेटवर्क टीम में हैं, तो अगले 30 दिनों में एक छोटा लक्ष्य तय कीजिए: P1 इन्सिडेंट पर 50% कम अलर्ट नॉइज़ और 15 मिनट तेज़ एस्केलेशन। यहीं से संस्कृति बदलती है—और यहीं से भरोसा लौटता है।
आपकी टीम में “आउटेज के पहले संकेत” सबसे पहले कहाँ दिखते हैं—नेटवर्क अलर्ट में, कॉल सेंटर में, या सोशल मीडिया शिकायतों में?