बैच सामान्यीकरण की एक नई समझ

बैच नॉर्मलाइज़ेशन (बीएन) को 2015 में [1] से शुरू किया गया था। तब से इसे सीखने की दर के चयन के लिए प्रशिक्षण और मजबूती के साथ-साथ पैरामीटर इनिशियलाइज़ेशन में सुधार करने के लिए सबसे गहरे शिक्षण मॉडल में उपयोग किया जाता है।

बीएन को पहले दो क्षणों - माध्य और विचरण को सामान्य करके प्रत्येक परत के इनपुट के आंतरिक कोवरिएट शिफ्ट (ICS) को कम करने के लिए डिज़ाइन किया गया था। एक ही समय में सीखने योग्य मापदंडों (गामा और बीटा) की एक जोड़ी का उपयोग करके सक्रियण के वांछित वितरण का उत्पादन करने की नेटवर्क की क्षमता को प्रभावित नहीं करना है।

एक हालिया पेपर [2], बीएन पर कुछ नया प्रकाश डालता है और सामान्यीकरण तकनीक का उपयोग करके प्राप्त किया जाता है। प्रयोगों के आधार पर, यह रिपोर्ट करता है:

  • आईसीएस प्रशिक्षण प्रदर्शन का एक अच्छा भविष्यवक्ता नहीं है
  • बीएन का उपयोग करके प्राप्त किया गया प्रदर्शन लाभ आईसीएस में कमी से नहीं होता है
  • बीएन बल्कि अनुकूलन परिदृश्य पर एक सुचारू प्रभाव प्रदान करता है, जो सीखने की दर जैसे हाइपरपरमीटर के लिए मॉडल की मजबूती को बेहतर बनाता है।

PRAYOG 1

चित्रा 1 नीचे ([2] से लिया गया) वीजीजी नेटवर्क के प्रशिक्षण के तीन सेट दिखाता है। पहला नेटवर्क बीएन के बिना प्रशिक्षित है, दूसरा बीएन के साथ प्रशिक्षित है; अंत में, तीसरे नेटवर्क को समय-अलग-अलग, गैर-शून्य माध्य और गैर-इकाई विचरण शोर जोड़कर उपयोग किए गए प्रत्येक बीएन के बाद वितरण अस्थिरता के साथ इंजेक्ट किया जाता है। शोर अनिवार्य रूप से एक उच्च आईसीएस का कारण बनता है, संभवतः मानक सेटिंग से अधिक है।

चित्रा 1 [2], प्रयोग 1 के परिणाम

परिणाम प्रदर्शित करते हैं कि शोर के अलावा बढ़ी हुई आईसीएस के साथ, प्रदर्शन लाभ अभी भी प्राप्त किया जाता है (गुलाबी रेखा)। यह आईसीएस में कमी के कारण प्रदर्शन में सुधार का कारक नहीं है।

प्रयोग २

प्रत्येक न्यूरल नेटवर्क लेयर के लिए, ICS ऑप्टिमाइज़ेशन समस्या में होने वाले बदलाव को प्रत्येक लेयर्स के इनपुट में बदलाव के कारण कैप्चर करता है क्योंकि पिछली लेयर्स के पैरामीटर को ग्रेडिएंट डिसेंट का उपयोग करके अपडेट किया जाता है। इस ’शिफ्ट’ की प्रतिक्रिया के रूप में, प्रत्येक परत को अपने मापदंडों को समायोजित करने की आवश्यकता होती है, जिसके कारण प्रायः ग्रेडिएंट के लुप्त होने या विस्फोट होता है [1]।

अनुकूलन परिदृश्य में परिवर्तन का यह विचार परत के मापदंडों के ग्रेडिएंट में परिवर्तन से भी परिलक्षित होगा। ढाल में अधिक परिवर्तन अनुकूलन परिदृश्य में एक बड़े बदलाव को दर्शाएगा। [२] पहले (G) और बाद की सभी परतों (G) के अपडेट के बाद प्रत्येक लेयर के ग्रेडिएंट के बीच के अंतर को मापकर इसे कैप्चर करता है। L2 अंतर का एक छोटा मान एक छोटे ICS को इंगित करेगा, क्योंकि परिदृश्य समान रहता है।

चित्रा 2 [2], प्रयोग 2 के परिणाम

[२] आईसीएस और बीएन के बीच दो ग्रेडिएंट्स के एल २ अंतर (और कोसाइन एंगल) की साजिश रचने से आगे की पड़ताल की जाती है, यह आंकड़ा २ में देखा गया है। ऊपर के आंकड़े से यह देखा जा सकता है कि बीएन का उपयोग आईसीएस में कमी का संकेत नहीं देता है।

तो फिर बैच सामान्यीकरण क्या करता है?

डीप न्यूरल नेटवर्क के अनुकूलन परिदृश्य में कई समतल क्षेत्र और तीखे किंक शामिल हो सकते हैं, जो समस्या को गैर-उत्तल बनाते हैं। ऐसे क्षेत्र लुप्त होते ढाल (समतल क्षेत्र) या ढाल विस्फोट (तेज ढलान) की ओर ले जाते हैं। यह सीखने की दर और मापदंडों के आरंभीकरण के प्रति संवेदनशीलता को बढ़ाता है, जिससे अनुकूलन अस्थिर होता है।

[२] बी.एन. का उपयोग कर ग्रैडिएंट्स के उच्च लिप्साचिट्ज़नेस को संदर्भित करता है, जो प्रभावी रूप से अनुकूलन परिदृश्य की एक उच्च चिकनाई का मतलब है। यह आंकड़ा 3 में देखा जा सकता है, जो भूखंड एक प्रशिक्षण कदम पर नुकसान की ढाल की गणना करता है और मापता है कि नुकसान उस ढाल दिशा में कैसे बदलता है।

चित्र 3 [2]

आकृति 3 से, बीएन एक चिकनी प्रोफ़ाइल देता है। यह ढाल को अधिक अनुमानित बनाता है, अर्थात, प्रत्येक चरण पर यह अधिक संभावना है कि ग्रेडियेंट भविष्य के चरणों के लिए समान रहता है। इस तरह की भविष्यवाणी स्थिरता खोने के बिना ढाल की दिशा में बड़े कदम उठाने की अनुमति देती है।

अंत में, [2] यह भी निष्कर्ष निकालता है कि बीएन का सुचारू प्रभाव नेटवर्क के बेहतर सामान्यीकरण का कारण हो सकता है। यह बीक्युस बीएन एक फ्लैट मिनीमा की ओर अनुकूलन को धक्का देता है।

संदर्भ:
[१] Ioffe S, Szegedy C. बैच सामान्यीकरण: आंतरिक कोवरिया शिफ्ट को कम करके गहन नेटवर्क प्रशिक्षण में तेजी लाना। arXiv प्रीप्रिंट arXiv: 1502.03167। 2015 फरवरी 11।
[२] संतूरकर एस, त्सिप्रस डी, इलियास ए, मैड्री ए। कैसे बैच सामान्यीकरण में मदद करता है अनुकूलन? (नहीं, यह आंतरिक कोवरिएट शिफ्ट के बारे में नहीं है)। arXiv प्रीप्रिंट arXiv: 1805.11604। 2018 29 मई।