5G में AI-ड्रिवन मॉनिटरिंग और AIOps कैसे बड़े आउटेज रोकते हैं—Optus इमरजेंसी कॉल फेलियर से सीखें और भरोसा बढ़ाएँ।
टेलीकॉम आउटेज से सबक: 5G में AI से भरोसा कैसे बने
18/09/2025 को ऑस्ट्रेलिया में Optus के Triple Zero (इमरजेंसी कॉल) नेटवर्क में आई विफलता ने एक असुविधाजनक सच्चाई फिर से सामने रखी: टेलीकॉम में आउटेज सिर्फ “टेक्निकल इश्यू” नहीं होते—ये भरोसे, जवाबदेही और कभी-कभी जीवन-मृत्यु का मामला बन जाते हैं। स्वतंत्र समीक्षा के मुताबिक देरी की एक बड़ी वजह बैकएंड सिस्टम के फेल होने पर चेतावनियों को समय पर गंभीरता से न लेना और ऑपरेशन्स/कॉन्ट्रैक्टर प्रक्रियाओं का ठीक से पालन न होना था।
यह पोस्ट उसी घटना को “दूरसंचार और 5G में AI” सीरीज़ के संदर्भ में एक केस-स्टडी मानकर देखती है। मेरा साफ़ स्टैंड है: 5G नेटवर्क जितना सॉफ्टवेयर-ड्रिवन होता जा रहा है, उतना ही “इंसान-आधारित” निगरानी और रेस्पॉन्स मॉडल जोखिम भरा होता जा रहा है। सही ढंग से लागू किया गया AI नेटवर्क मॉनिटरिंग, अलर्ट ट्रायेज, और इन्सिडेंट रेस्पॉन्स में मिनटों का फर्क ला सकता है—और इमरजेंसी सर्विसेज़ में मिनट ही सबसे बड़ा KPI होते हैं।
Optus केस: असल समस्या “प्रक्रिया” थी, सिर्फ तकनीक नहीं
सीधा निष्कर्ष: रिपोर्ट की भाषा में “process was not followed” और “alerts given insufficient attention” जैसी बातें बताती हैं कि तकनीकी सिस्टम के साथ-साथ ऑपरेशनल डिसिप्लिन भी फेल हुआ। 40-पेज की स्वतंत्र समीक्षा ने नेटवर्क विभाग और कॉन्ट्रैक्टर (Nokia) में कमजोर मैनेजमेंट, गलत प्रक्रियाओं का चयन, अपर्याप्त चेक्स, और अलर्ट्स को कम महत्व देने जैसी बातें हाईलाइट कीं।
आउटेज के बाद जवाबदेही का दबाव क्यों बढ़ रहा है
Optus के चेयर जॉन आर्थर ने सार्वजनिक रूप से कहा कि विफलताएं “unacceptable” थीं और बोर्ड व्यक्तिगत जवाबदेही तय करेगा—फाइनेंशियल पेनल्टी से लेकर टर्मिनेशन तक। यह सिर्फ PR नहीं है। 2025 तक कई देशों में टेलीकॉम रेगुलेशन का रुख़ स्पष्ट है:
- क्रिटिकल इन्फ्रास्ट्रक्चर में “रीज़न” से ज्यादा “रेज़िलिएंस” मायने रखती है।
- इमरजेंसी सेवाओं में SLA और रिपोर्टिंग सख्त होती जा रही है।
- आउटेज पोस्ट-मॉर्टम में “क्यों नहीं देखा?” का जवाब “अलर्ट आया ही नहीं” नहीं, बल्कि “अलर्ट को समझा/प्राथमिकता क्यों नहीं दी?” बन चुका है।
कॉल सेंटर लोकेशन और 24/7 ऑपरेशन का असर
रिपोर्ट में यह भी आया कि कॉल सेंटर ऑपरेशन्स को ऑस्ट्रेलिया से बाहर शिफ्ट करने से बैकएंड फेलियर पर प्रतिक्रिया में देरी बढ़ी। समीक्षा ने नोट किया कि Optus अब कॉल सेंटर का कुछ हिस्सा वापस ऑस्ट्रेलिया लाकर 24/7 लोकली चला रहा है—जिससे रिस्पॉन्स बेहतर होगा।
यहां सीख बहुत व्यावहारिक है: जब फ्रंटलाइन (कॉल सेंटर/एनओसी) और बैकएंड (नेटवर्क/आईटी) के बीच समय-क्षेत्र, संदर्भ और एस्केलेशन प्रोटोकॉल में गैप होता है, तो आउटेज लंबा होता है।
AI-ड्रिवन नेटवर्क मॉनिटरिंग: अलर्ट नहीं, “एक्शन-रेडी संकेत” चाहिए
सीधा निष्कर्ष: 5G नेटवर्क में समस्या अलर्ट्स की कमी नहीं; समस्या है बहुत ज्यादा अलर्ट्स और उनमें से सही अलर्ट को सही समय पर सही टीम तक पहुंचाना। AI का वास्तविक रोल “अलर्ट जनरेशन” से ज्यादा अलर्ट ट्रायेज, करॉलेशन, और निर्णय-सहायता में है।
1) सिग्नल करॉलेशन: एक ही घटना के 200 अलर्ट्स को 1 इन्सिडेंट बनाना
क्लासिक नेटवर्क में भी एक बैकएंड फेलियर कई सिस्टम्स में ripple effect बनाता है: कॉल सेटअप, रूटिंग, डेटाबेस, API, मॉनिटरिंग एजेंट—सब अलग-अलग अलर्ट फेंकते हैं। AI/ML-आधारित इवेंट करॉलेशन यह कर सकता है:
- समान पैटर्न वाले अलर्ट्स को क्लस्टर करना
- “रूट-कॉज” संभावनाओं की रैंकिंग देना
- प्रभावित सेवाओं (जैसे इमरजेंसी कॉल) को ऑटो-टैग करके प्रायोरिटी बढ़ाना
यानी ऑपरेटर को 200 ईमेल/पेजर नोटिफिकेशन नहीं, एक स्पष्ट संदेश मिले: “Triple Zero कॉल फ्लो में असामान्य विफलता—संभावित कारण: backend routing component—तुरंत स्विचओवर/रोलबैक सुझाया गया।”
2) एनोमली डिटेक्शन: आउटेज बनने से पहले “धीमी खराबी” पकड़ना
रिपोर्ट में “warning signals” का उल्लेख बताता है कि संकेत मौजूद थे, लेकिन एक्शन नहीं हुआ। एनोमली डिटेक्शन (unsupervised ML) खासतौर पर वहां काम आता है जहां:
- पहले कभी वैसा फेलियर नहीं हुआ
- नियम-आधारित थ्रेशहोल्ड्स पर्याप्त नहीं
- छोटे-छोटे डिग्रेडेशन मिलकर बड़ी घटना बनते हैं
5G/IMS/VoLTE/VoNR जैसे स्टैक्स में KPI (जैसे call setup success rate, latency, signaling errors) के मल्टी-डायमेंशनल पैटर्न होते हैं। AI इन पैटर्न्स में “नॉर्मल से हटना” जल्दी पकड़ सकता है।
3) इन्सिडेंट रेस्पॉन्स ऑटोमेशन: प्लेबुक + AI = मिनटों की बचत
सिर्फ पहचानना काफी नहीं—रीकवरी भी तेज़ चाहिए। यहीं AIOps और ऑटोमेशन मदद करते हैं:
- प्री-एप्रूव्ड runbooks (रोलबैक, रीस्टार्ट, ट्रैफिक रीरूट)
- चेंज-मैनेजमेंट गार्डरेल्स (गलत प्रक्रिया का चयन रोकना)
- “किसे जगाना है” (on-call) का स्मार्ट रूटिंग
मेरे अनुभव में सबसे बड़ा लाभ यह होता है कि टीमें “क्या हुआ?” पर कम समय लगाती हैं और “अब क्या करें?” पर जल्दी पहुंचती हैं।
जवाबदेही का नया मतलब: AI को गवर्नेंस के साथ जोड़ना
सीधा निष्कर्ष: टेलीकॉम में AI तभी भरोसा बनाता है जब उसके साथ स्पष्ट गवर्नेंस, ऑडिट ट्रेल, और मानव निर्णय की सीमा तय हो। Optus केस में “गलत प्रक्रिया चयन” और “चेक्स अपर्याप्त” जैसी बातें AI-गवर्नेंस की जरूरत दिखाती हैं।
AI लागू करते समय 4 गवर्नेंस नियम (जो 2026 की तैयारी भी हैं)
- Auditability: हर AI-सुझाव के साथ “क्यों” (explainability) और किस डेटा पर आधारित था—लॉग में जाए।
- Human-in-the-loop: इमरजेंसी/सेफ्टी-क्रिटिकल फ्लो में ऑटो-एक्शन सीमित रखें; पर recommendation speed अधिकतम रखें।
- Change hygiene: AI द्वारा सुझाए गए बदलावों को ITIL/Change प्रक्रिया से जोड़ें—पर आउटेज मोड में “fast-track” रास्ता तय हो।
- KPI alignment: AI का लक्ष्य “कम अलर्ट” नहीं; लक्ष्य कम MTTR (Mean Time To Repair) और बेहतर service continuity हो।
यह सब इसलिए भी जरूरी है क्योंकि रेगुलेटर्स अब सिर्फ आउटेज नहीं देखते, वे देखते हैं कि आपके पास आउटेज रोकने/कम करने की व्यवस्थित क्षमता थी या नहीं।
5G में इमरजेंसी सेवाओं के लिए AI आर्किटेक्चर: क्या-क्या होना चाहिए
सीधा निष्कर्ष: इमरजेंसी कॉलिंग जैसे use-case में AI का ढांचा तीन लेयर में सोचना चाहिए—डेटा, इंटेलिजेंस, और एक्शन।
डेटा लेयर: सही डेटा, सही समय पर
- नेटवर्क KPI/काउंटर (RAN, Core, IMS)
- एप्लिकेशन/बैकएंड लॉग्स
- कॉल सेंटर/टिकटिंग संकेत (पहली शिकायतें अक्सर वहीं आती हैं)
- चेंज इवेंट्स (रोलआउट/कॉन्फ़िग बदलने का रिकॉर्ड)
इंटेलिजेंस लेयर: AIOps + डोमेन नियम
- एनोमली डिटेक्शन
- इवेंट करॉलेशन
- प्रायोरिटी स्कोरिंग (सेवा-आधारित: Triple Zero सबसे ऊपर)
- रूट-कॉज रैंकिंग
एक्शन लेयर: स्वचालन, लेकिन सुरक्षित
- रनबुक ऑटोमेशन (सीमित और ऑडिटेबल)
- स्मार्ट एस्केलेशन
- ग्राहक संचार ड्राफ्टिंग (कॉल सेंटर/ऐप नोटिस) ताकि अफवाहें न फैलें
यहीं “दूरसंचार और 5G में AI” का बड़ा वादा दिखता है: नेटवर्क ऑप्टिमाइज़ेशन और ग्राहक सेवा ऑटोमेशन सिर्फ लागत घटाने के लिए नहीं—विश्वसनीयता बढ़ाने के लिए भी है।
ऑपरेटर और एंटरप्राइज़ के लिए प्रैक्टिकल चेकलिस्ट (अगले 90 दिनों की)
सीधा निष्कर्ष: अगर आप 2026 में 5G को भरोसेमंद बनाना चाहते हैं, तो 2025 के अंत से ही ऑपरेशनल बदलाव शुरू करने होंगे। यह 90-दिन की क्रियात्मक सूची मदद करेगी।
- MTTD/MTTR बेसलाइन बनाइए: अभी आउटेज में औसतन पहचानने और ठीक करने में कितना समय लगता है—संख्याओं में लिखिए।
- सेवा-क्रिटिकलिटी मैपिंग: इमरजेंसी कॉल, बैंकिंग, UPI, अस्पताल नेटवर्क—किन सेवाओं को सर्वोच्च प्राथमिकता मिलेगी?
- अलर्ट नॉर्मलाइज़ेशन: अलग-अलग टूल्स से आने वाले अलर्ट्स को एक टैक्सोनॉमी में लाएँ (severity, service, component)।
- रनबुक स्टैंडर्डाइज़ेशन: टॉप 10 इन्सिडेंट टाइप्स के लिए step-by-step प्लेबुक तय करें।
- कॉल सेंटर को सेंसर मानिए: कॉल पैटर्न/कीवर्ड स्पाइक्स को “early warning” की तरह मॉडल करें।
- ऑन-कॉल एस्केलेशन सुधारें: किस समय किस टीम को कैसे अलर्ट—यह लिखित और टेस्टेड हो।
- टेस्टिंग में ‘फेलियर इंजेक्शन’ जोड़ें: बैकएंड घटक डाउन करके देखें कि डिटेक्शन/एस्केलेशन कितना तेज़ होता है।
ये लिस्ट सुनने में साधारण है, लेकिन यही साधारण चीज़ें आउटेज के दौरान सबसे पहले टूटती हैं।
भरोसा वहीं बनता है जहां पारदर्शिता और ऑटोमेशन साथ चलें
Optus ने रिपोर्ट सार्वजनिक करके “open” रहने की बात कही और जवाबदेही तय करने का संकेत दिया। यह दिशा सही है, लेकिन उद्योग के लिए बड़ा संदेश यह है: पारदर्शिता आपको घटना के बाद बचाती है, AI-ड्रिवन ऑपरेशन्स आपको घटना से पहले बचाते हैं।
“दूरसंचार और 5G में AI” सीरीज़ के नजरिए से देखें तो यह केस-स्टडी एक मांग रखती है—नेटवर्क को observability-first बनाइए और इन्सिडेंट रेस्पॉन्स को automation-ready। 2026 में ग्राहकों का धैर्य और रेगुलेटर्स की सख्ती—दोनों बढ़ने वाले नहीं हैं।
अगर आपके नेटवर्क में कल सुबह इमरजेंसी कॉलिंग जैसी सेवा पर दबाव बढ़े, तो आपकी टीम सबसे पहले क्या देखेगी: 200 अलर्ट्स या एक स्पष्ट AI-संकेत कि “यह घटना गंभीर है और यही अगला कदम है”?