सीखने के लिए याद रखना: निरंतर सीखने के लिए एक सिनैप्टिक प्लास्टिसिटी ड्रिवेन फ्रेमवर्क

ओलेक्सी ओस्टापेंको, टैसिलो क्लेन, मोइन नबी (एमएल रिसर्च)

मनुष्य जीवन भर लगातार सीखने की असाधारण क्षमता रखता है। नई परिस्थितियों, वातावरण और कार्यों के लिए पहले से सीखे हुए ज्ञान को लागू करने की क्षमता मानव बुद्धि की प्रमुख विशेषता है। जैविक स्तर पर, यह आमतौर पर चुनिंदा रूप से तंत्रिका कनेक्शनों में पर्याप्त रूप से लंबे समय तक यादों को संग्रहीत करने और नियंत्रित करने की क्षमता के लिए जिम्मेदार ठहराया जाता है जिसे सिनेप्स कहा जाता है। जैविक दिमाग के विपरीत, पारंपरिक कृत्रिम तंत्रिका नेटवर्क (ANN) न्यूरॉन्स के साथ सिनैप्टिक कनेक्शन की ताकत को नियंत्रित करने की क्षमता नहीं रखते हैं। इससे एएनएन में बहुत कम स्मृति जीवनकाल होता है - प्रभाव जिसे भयावह भूलने के रूप में जाना जाता है।

पिछले एक दशक में आर्टिफिशियल इंटेलिजेंस (एआई) के क्षेत्र में अधिकांश शोध मानव स्तर के प्रदर्शन को अलग-थलग करने, स्पष्ट रूप से परिभाषित कार्यों जैसे कंप्यूटर गेम खेलने, स्पैम ईमेल को छांटने, कुत्तों से बिल्लियों को वर्गीकृत करने और भाषण को पहचानने के लिए निर्देशित किया गया था, बस कुछ नाम है। नतीजतन, हमारे दिन-प्रतिदिन के जीवन में हमारे आसपास के अधिकांश एआई को कृत्रिम संकीर्ण बुद्धि या कमजोर एआई के रूप में संदर्भित किया जा सकता है। मजबूत एआई, इसके विपरीत, मानव-जैसे एआई को संदर्भित करता है जो किसी भी बुद्धिमान कार्य को कर सकता है, जबकि लगातार सीखने में सक्षम होने के नाते, चुनिंदा रूप से भूल जाते हैं, जबकि नए कार्यों के लिए जल्दी से आदत डालते हैं और पिछले अनुभवों का उपयोग करते हैं। इन गुणों को हाल ही में एआई शोधकर्ताओं ने ध्यान देना शुरू किया।

लगातार सीखने क्यों? हमेशा बदलते परिदृश्यों की कुंजी

कमजोर एआई से मजबूत एआई के रास्ते में ज्ञान हस्तांतरण को भूलना और गायब करना मुख्य चुनौतियों में से एक है। मनुष्यों के विपरीत, जो चुनिंदा रूप से भूल जाते हैं, मशीनें भयावह रूप से भूल जाती हैं। तदनुसार, "शिशु रेंगना, चलना और फिर दौड़ना सीखता है" (~ डेव वाटर्स), एआई पूरी तरह से एक बार रेंगना भूल जाता है क्योंकि यह सीखता है कि कैसे चलना है, और यह चलना सीखते ही चलना भूल जाएगा। नित्य आजीवन सीखने की चुनौती के संभावित समाधानों की समीक्षा करने से पहले, आइए हम एआई-आधारित कपड़े सूची खोज के एक सरल उदाहरण पर विचार करें।

सीजन (ए) के कपड़ों की वस्तुओं वाले डेटासेट पर प्रशिक्षित एक मशीन लर्निंग मॉडल इस सीज़न (ए) उत्पादों के बीच खोज करते समय बहुत अच्छा प्रदर्शन करेगा। हालांकि, एक बार सीज़न बदलने के बाद, फैशन ट्रेंड भी बदल सकता है। एक बार फैशन ट्रेंड बदलने के बाद, नए उत्पाद श्रेणियों, मॉडल और शैलियों को कैटलॉग में जोड़ा जा सकता है (जैसे कि स्नीकर्स के बजाय ऊँची एड़ी, शॉर्ट जैकेट आदि के बजाय लंबी जैकेट)। पहले सीज़न (ए) के डेटा पर प्रशिक्षित मॉडल नए सीज़न में जोड़े गए आइटम के माध्यम से खोज करने पर अच्छा प्रदर्शन नहीं करेगा। वास्तव में, नए सत्र से डेटा पर बस हमारे मॉडल का प्रशिक्षण, पिछले सत्र के आइटमों के बीच खोज करने की क्षमता को भयावह रूप से भूल जाएगा।

भूलने का सामान्य तरीका?

ANNs में भयावह भूल को कम करने वाली सबसे शुरुआती तकनीकों में से एक को अनुभव रिप्ले या "रिहर्सल" के रूप में जाना जाता है। हमारे कैटलॉग खोज उदाहरण के साथ जारी रखते हुए, पहले सीज़न में सीखी गई जानकारी को बनाए रखने के लिए, मशीन लर्निंग मॉडल को दोनों मौसमों के डेटा के मिश्रण पर स्क्रैच से मुंहतोड़ जवाब दिया जाता है, अर्थात पहले से सीखे गए ज्ञान को प्रशिक्षित मॉडल पर फिर से लिखा जाता है। नए सीज़न का डेटा। आमतौर पर, मॉडल को हर बार "वितरण" स्थानांतरित करने के परिणामस्वरूप डेटा भंडारण लागत और बुद्धिमान प्रणालियों को बनाए रखने के लिए आवश्यक प्रयासों में विस्फोट होता है, न कि सिस्टम स्केलेबिलिटी की नाटकीय कमी का उल्लेख करने के लिए। अंत में, पिछले कार्यों के कच्चे डेटा को संग्रहीत करने से वास्तविक-विश्व अनुप्रयोग की डेटा गोपनीयता आवश्यकताओं का काफी हद तक उल्लंघन हो सकता है।

इस संदर्भ में, कई शोधकर्ताओं ने ANN में तंत्रिका प्लास्टिसिटी का अनुकरण करने पर ध्यान केंद्रित किया है और इस प्रकार कच्चे डेटा (1,2,3,4,5,6) को संग्रहीत करने की आवश्यकता को कम किया है। यह आमतौर पर तथाकथित "कार्य-वृद्धिशील" सेटअप में किया जाता है, जहां हर नए जोड़े गए डेटा चंक को एक अलग कार्य के रूप में माना जाता है और कार्य लेबल के बारे में जानकारी परीक्षण के समय पर उपलब्ध है। कैटलॉग खोज उदाहरण पर वापस आ रहे हैं, इसके लिए प्रत्येक क्वेरी में शामिल होने के लिए सीज़न लेबल (टास्क लेबल) के बारे में जानकारी की आवश्यकता होगी; इसलिए किसी दिए गए परिधान आइटम को वर्गीकृत करने के लिए उस कार्य (लेबल) से संबंधित मौसम के बारे में एक पूर्व-सूचना की आवश्यकता होगी। इस तरह के "कार्य लेबल" होने से स्वचालित रूप से मॉडल का उत्पादन उन वर्गों के लिए कम हो जाएगा जो ग्रहण किए गए कार्य से संबंधित हैं। इस प्रकार, ऊपर हमारे उदाहरण में यह केवल मॉडल को विशेष मौसम तक ही सीमित रखेगा। वास्तविक दुनिया के अनुप्रयोगों में इन धारणाओं को शायद ही कभी पूरा किया जा सकता है।

काम की एक अलग लाइन परिदृश्य की तरह अधिक वास्तविक दुनिया से निपटती है। इस "वर्ग-वृद्धिशील" परिदृश्य में, मॉडल का वर्गीकरण आउटपुट लगातार बढ़ाया जाता है क्योंकि नई कक्षाएं सीखी जाती हैं। इस संदर्भ में एक आम रणनीति एक तथाकथित जेनरेटर मेमोरी घटक (उदाहरण 7,8,9) को पेश करना है। यहां, कच्चे डेटा को संग्रहीत करने के बजाय, एक जेनरिक मॉडल जैसे कि GAN या VAE (पिछले ब्लॉगपोस्ट देखें) को फिर से शुरू करने के लिए अनुभव उत्पन्न करने के लिए प्रशिक्षित किया जाता है। इसलिए, कैटलॉग उदाहरण में, पहले सीज़न के आइटम (संबंधित वर्ग के साथ) उत्पन्न किए जाएंगे और मॉडल को फिर से शुरू किया जाएगा।

मौजूदा जेनेरिक मेमोरी दृष्टिकोण ज्यादातर गहरी जेनेरिक रिप्ले के विचार पर निर्भर करते हैं जहां जेनेरिक मॉडल वर्तमान में उपलब्ध वास्तविक डेटा (नए सीज़न) के मिश्रण पर पुन: लागू होता है और पिछले जनरेटर (पिछले सीज़न) द्वारा संश्लेषित रीप्ले एपिसोड। हालांकि, प्रशिक्षण में अत्यधिक अक्षम होने के अलावा, ये दृष्टिकोण "सिमेंटिक ड्रिफ्टिंग" के रूप में जाने जाने वाले प्रभाव से गंभीर रूप से ग्रस्त हैं। "सिमेंटिक ड्रिफ्टिंग" प्रत्येक मेमोरी रिप्ले में उत्पन्न छवियों की गुणवत्ता को पहले से उत्पन्न छवियों के आधार पर संदर्भित करता है, जिससे त्रुटि प्रसार के लिए संवेदनशीलता होती है और इस प्रकार गुणवत्ता और भूलने का नुकसान होता है।

प्रस्तावित समाधान - जेनेरिक मेमोरी नेटवर्क में प्लास्टिसिटी सीखना

अब तक, हमने सीखा है कि एएनएन में सामान्य रूप से भूलने की समस्या को दूर करने के लिए अनुभव रिप्ले एक सरल और उपयोगी रणनीति है, और विशेष रूप से चुनौतीपूर्ण "वर्ग-वृद्धिशील" स्थिति में। फिर भी, यह रणनीति केवल तब लागू होती है जब रिप्ले एपिसोड को कच्चे डेटा के रूप में नहीं रखा जाता है, लेकिन प्रासंगिक और कुशलता से संग्रहीत मेमोरी पैटर्न के रूप में।

इसे संबोधित करने के लिए, हमारे हाल के काम में हमने डायनेमिक जेनरेटरी मेमोरी (DGM) नामक एक विधि का प्रस्ताव दिया - एक अंत-से-अंत तक चलने वाला सतत नित्य सीखने का ढाँचा, जो जेनेरिक नेटवर्क (GAN) के मापदंडों पर लागू होने वाले सीखने योग्य कठिन ध्यान मास्क के साथ सिनैप्टिक प्लास्टिसिटी का अनुकरण करता है। । कठिन ध्यान मास्किंग उन नेटवर्क सेगमेंट की पहचान करता है जो वर्तमान में सीखी गई जानकारी को याद रखने के लिए आवश्यक हैं और भविष्य में सीखने के दौरान उनके अपडेट को रोकता है। नेटवर्क को पहले से सीखे गए ज्ञान का पुन: उपयोग करने के लिए प्रोत्साहित किया जाता है, जिसे ज्ञान के सकारात्मक आगे हस्तांतरण के लिए ऐसे "आरक्षित" नेटवर्क खंडों में संग्रहीत किया गया था। इसलिए, हमारे उत्पाद सूची उदाहरण में, पिछले सीज़न के कैटलॉग आइटम के बारे में ज्ञान को नए सीज़न की वस्तुओं के बारे में सीखते समय प्रभावी रूप से पुन: उपयोग किया जा सकता है। सभी के सभी, डीजीएम पुराने ज्ञान को फिर से भरने की आवश्यकता के बिना नए कार्यों के बारे में सीख सकते हैं, इस प्रकार प्रशिक्षण दक्षता में सुधार और भयावह भूल के चेहरे में अधिक मजबूत हो जाते हैं।

नतीजतन, डीजीएम नित्य सीखने के किसी भी चरण में पहले से सीखी गई श्रेणियों के जानकारीपूर्ण और विविध नमूने उत्पन्न कर सकते हैं जैसा कि नीचे दी गई तस्वीर में दिखाया गया है। इन नमूनों को कार्य को हल करने वाले मॉडल (डी) के लिए फिर से शुरू करने से एक मॉडल मिलता है जो सभी वर्गों पर उच्च वर्गीकरण प्रदर्शन को बनाए रख सकता है जिसे नित्य सीखने की प्रक्रिया के दौरान देखा गया है।

स्केलेबिलिटी पर

सीमित नेटवर्क आकार को देखते हुए, यह अपरिहार्य है कि सीखने के लिए कार्यों की बढ़ती संख्या के साथ, किसी समय मॉडल की क्षमता कम हो जाती है। पैरामीटर स्तर कठिन ध्यान मास्किंग के साथ तंत्रिका प्लास्टिसिटी का अनुकरण करते समय यह मुद्दा बढ़ जाता है। अंतर्निहित नेटवर्क की पर्याप्त क्षमता और निरंतर अभिव्यंजक शक्ति की गारंटी देने के लिए, DGM "फ्री" मापदंडों की संख्या रखता है (यानी एक बार जो प्रभावी रूप से अपडेट की जा सकती है) निरंतर नेटवर्क का विस्तार करके पैरामीटर की संख्या जो पिछले के लिए आरक्षित थी। कार्य। यहां मुख्य विचार यह है कि ज्ञान के एक सकारात्मक सकारात्मक हस्तांतरण (यानी पैरामीटर पुन: प्रयोज्य) के साथ, नए कार्यों के लिए पैरामीटर आरक्षण की संख्या समय के साथ घटनी चाहिए और नेटवर्क विकास एक निश्चित बिंदु पर संतृप्त होना चाहिए।

DGM विधि पर तकनीकी जानकारी के लिए कृपया arXiv पर पूर्ण पेपर देखें।

भले ही अभी भी पूरी तरह से भुला देने वाली आपदा के मुद्दे को हल करने से बहुत दूर है, और कई सीमाओं के बावजूद, DGM एक चुनौतीपूर्ण "वर्ग-वृद्धिशील" सेटअप में भयावह भूल के खिलाफ कुशल नेटवर्क विकास और मजबूती का प्रदर्शन करता है। हमारा मानना ​​है कि प्रस्तुत शोध हमें निरंतर सीखने की हमारी समझ को आगे बढ़ाने में मदद कर सकता है - मजबूत एआई को प्राप्त करने की दिशा में एक आवश्यक क्षमता, जो समय के साथ अनुकूल और उत्तरोत्तर सीखने (और भूल) में सक्षम है।

आजीवन सीखने पर हमारा काम CVPR 2019 में प्रस्तुत किया गया है।

लेखक के बारे में: एसएपी मशीन लर्निंग रिसर्च टीम के एक एसोसिएट रिसर्च इंजीनियर ओलेक्सी ओस्टापेंको अपने पेपर में इस पोस्ट में चर्चा की गई लगातार आजीवन सीखने की चुनौतियों पर काम कर रहे हैं, जो इस साल के सीवीपीआर में प्रस्तुत किए जाएंगे।