मानव-मशीन सहयोगात्मक सीखना

वादिम सेंचर्नज़ी, मोइन नबी और टैसिलो क्लेन (एमएल रिसर्च बर्लिन)

हमने एक नए युग में प्रवेश किया है, जहां हम कम्प्यूटेशनल शक्ति, भंडारण और बड़े डेटा की उपलब्धता में निरंतर सुधार कर रहे हैं। गहन अध्ययन ने इन रुझानों को भुनाने के लिए आदर्श तकनीक को दिखाया है, खुद को पर्यवेक्षित सीखने में एक वास्तविक मानक के रूप में स्थापित किया है। हालांकि, इस प्रकार के सीखने के लिए डेटा को लेबल करने की आवश्यकता होती है, जो आम तौर पर डेटा क्यूरेशन में काफी लागत की आवश्यकता होती है। इसलिए, वैकल्पिक प्रतिमान उभर रहे हैं जो एक नए और अलग तरीके से विशाल मात्रा में सूचना की क्षमता को अधिकतम करने की अनुमति देते हैं। इस ब्लॉग-पोस्ट में हम एक अवधारणा पेश करते हैं जो मनुष्यों और मशीनों की ताकत को एक सहयोगात्मक तरीके से जोड़ती है। लेकिन अधिक जानकारी में जाने से पहले, इस दृष्टिकोण के लाभों को प्रदर्शित करने वाली कहानी से शुरुआत करते हैं।

1997 में, गैरी कास्परोव को टूर्नामेंट के नियमों के तहत शतरंज मैच में एक सुपर कंप्यूटर (डीप ब्लू) ने हराया था। यह एक हॉलमार्क घटना थी, जिसमें एक शातिर विश्व शतरंज चैंपियन को एक मशीन ने हराया था। जबकि कास्परोव इस अनुभव से उबर रहे थे, उन्होंने डीप ब्लू से प्रेरणा भी ली। उन्होंने खुद से पूछा: "क्या होगा अगर मैं एक कंप्यूटर के खिलाफ खेल सकता हूं - मेरी तरफ एक और कंप्यूटर के साथ - हमारी ताकत, मानव अंतर्ज्ञान प्लस मशीन की गणना, मानव रणनीति, मशीन रणनीति, मानव अनुभव, मशीन की मेमोरी?"

शतरंज में मानव-मशीन सहयोग के बारे में कास्परोव के विचार को 2005 में एक कंप्यूटर-सहायता प्राप्त ऑनलाइन शतरंज टूर्नामेंट में सफलतापूर्वक महसूस किया गया था, जहां दादी ने सुपर कंप्यूटर के साथ मिलकर काम किया था। परिणाम काफी अप्रत्याशित था: विजेता शौकिया अमेरिकी शतरंज खिलाड़ियों की एक जोड़ी थे जो एक साथ तीन साधारण पीसी का संचालन कर रहे थे। मुख्य रूप से, इस मामले में कंप्यूटर को निर्देशित करने के लिए खिलाड़ियों के कौशल ने बहुत महत्वपूर्ण भूमिका निभाई। यह इस सवाल को जन्म देता है कि क्या इस तरह के सहयोग का उपयोग अन्य कार्यों के लिए भी किया जा सकता है। निम्नलिखित पैराग्राफ इस संदर्भ में उभरते दृष्टिकोणों पर प्रकाश डालेंगे।

दृष्टिकोण और रुझान

सह-श्रमिक के रूप में मशीनें, न केवल उपकरण

मनुष्यों और मशीनों की तुलना करते समय, यह स्पष्ट है कि दोनों पक्षों में बहुत ही अनोखी विशेषताएं और ताकत हैं। मनुष्य अपने ज्ञान के आधार पर सहज और रचनात्मक निर्णय लेने में महान हैं। नए ज्ञान प्राप्त करने और बेहतर निर्णय लेने के लिए संघनित सार्थक जानकारी का उत्पादन करने के लिए कंप्यूटर भारी मात्रा में डेटा का प्रसंस्करण कर रहे हैं। इन विशिष्ट शक्तियों के तालमेल पर पूँजीकरण एक अगला कदम है।

शोध में, इस तरह के संयोजनों का पिछले वर्षों में अधिक गहराई से पता लगाया गया है और धीरे-धीरे अधिक गति का अनुभव कर रहे हैं। एक दृष्टिकोण मिंट्ज़ एट अल द्वारा प्रस्तावित किया गया था। दूर-पर्यवेक्षण के माध्यम से संबंध निष्कर्षण मॉडल को बढ़ाने के लिए अनलिस्टेड डेटा का उपयोग करना। विशेष रूप से, वे एक मानव-घुमावदार डेटाबेस का उपयोग एक हेयुरिस्टिक लेबलिंग फ़ंक्शन को डिजाइन करने के लिए करते हैं और इसे एक क्लासिफायरियर की प्रशिक्षण प्रक्रिया में शामिल करते हैं। क्लासिफायरर तब एक बड़ी संख्या में संबंधों के लिए उच्च परिशुद्धता पैटर्न निकालने में सक्षम है। चूंकि शोधकर्ताओं ने एक लेबलिंग फ़ंक्शन डिज़ाइन किया है जो मानव एनोटेटर के लेबलिंग व्यवहार का अनुमान लगाता है, यह पर्यवेक्षण को "दूर" बनाता है।

वांग एट अल द्वारा विकसित एक और तकनीक। कंप्यूटर विज़न के क्षेत्र में, स्व-पर्यवेक्षित नमूना खनन के माध्यम से अप्रकाशित छवियों से वस्तु का पता लगाने में सुधार होता है। इस विधि का एक महत्वपूर्ण हिस्सा ऑब्जेक्ट डिटेक्टर को बढ़ाने के लिए स्वचालित रूप से खोज और छद्म-लेबलिंग विश्वसनीय क्षेत्र प्रस्तावों पर आधारित है। विभिन्न छवि संदर्भों के तहत उनकी स्थिरता के मूल्यों का व्यापक रूप से आकलन करने के लिए इन प्रस्तावों को अलग-अलग लेबल वाली छवियों में चिपकाकर प्राप्त किया जाता है। हालाँकि ये चित्र छद्म लेबल वाले होते हैं, वे पहचान सटीकता और शोर नमूनों के खिलाफ मजबूती को बेहतर बनाने में प्रभावी योगदान देते हैं। आखिरकार, दोनों वर्णित दृष्टिकोण अनलेलेटेड डेटा को स्वचालित रूप से एनोटेट करते हैं और इस प्रकार प्रशिक्षण प्रक्रिया में मानव पर्यवेक्षण की मात्रा कम हो जाती है।

सक्रिय शिक्षण में मानव मार्गदर्शन को शामिल करना

पिछली अवधारणा की तुलना में, जहां डेटा मशीन एनोटेट डेटा द्वारा डेटासेट बढ़ाया जाता है, हम शिक्षार्थी को मुश्किल नमूनों का चयन करने और मानव प्रशिक्षक से उन्हें एनोटेट करने का अनुरोध कर सकते हैं, इसलिए नाम सक्रिय शिक्षण। विधि अत्यधिक कुशल साबित होती है, विशेष रूप से नमूनों के प्रशिक्षण के लिए सीमित बजट उपलब्धता के साथ स्थितियों में - विशेषज्ञ चुनौतीपूर्ण मामलों पर ध्यान केंद्रित कर सकते हैं, जबकि मशीन आमतौर पर अधिकांश नमूनों को हल करने में ले जाती है।

सक्रिय सीखने के पीछे अंतर्ज्ञान को समझाने के लिए, नस्लों के संबंध में कुत्तों की छवियों को लेबल करने के सरल कार्य पर विचार करें। हम एक आधार डेटासेट के साथ शुरू करते हैं जिसमें कुत्तों की लेबल वाली छवियां होती हैं। यह डेटासेट कई मायनों में प्रशिक्षण के लिए एक चुनौती हो सकता है: इसमें ज्यादातर कैमरे की ओर कुत्तों की छवियां हो सकती हैं, इस प्रकार साइड से प्रदर्शित कुत्तों को प्रशिक्षित मॉडल बना सकते हैं। इसमें प्रत्येक नस्ल के लिए नमूनों की असंतुलित मात्रा भी हो सकती है। या, इसमें बेल्जियम मालकिन और जर्मन शेफर्ड डॉग जैसी दिखने वाली नस्लें एक जैसी हो सकती हैं। ऐसे मामलों में, मनुष्यों और मशीनों दोनों को कुत्तों को सही ढंग से वर्गीकृत करने के लिए सीखने के लिए प्रत्येक नस्ल के अधिक उदाहरणों की आवश्यकता होगी। सक्रिय सीखने से इस तरह की समस्याओं को हल करने में मदद मिलती है।

कल्पना कीजिए कि हम एक निश्चित आधार डेटासेट पर प्रशिक्षित मॉडल के साथ 80% की सटीकता प्राप्त कर पाएंगे। हमें 1000 गैर-सूचीबद्ध लोगों में से 100 नई छवियों को लेबल करने के लिए एक बजट दिया गया है और इस बजट का बुद्धिमानी से उपयोग करने का लक्ष्य है, क्योंकि लेबलिंग के लिए विशेषज्ञ का समर्थन महंगा है। इसलिए, बेतरतीब ढंग से 100 नमूनों को चुनने के बजाय, हमें अपने मशीन सीखने वाले को सबसे कठिन नमूनों या उन आंकड़ों को चुनने देना चाहिए जो अंतर्निहित डेटा वितरण को सर्वश्रेष्ठ रूप से कैप्चर करते हैं और अतिरेक को कम करते हैं। हम मॉडल को लेबलिंग के लिए विशेषज्ञ को उन 100 नमूनों का सुझाव देते हैं, जिसके लिए यह कम आत्मविश्वास या उच्च अनिश्चितता के साथ लेबल प्रदान करेगा। इस तरह, हमारे मशीन सीखने वाले की सटीकता सेटअप में 90% के बजाय प्रशिक्षण के बाद 95% तक बढ़ सकती है, जहां बेतरतीब ढंग से लेबल किए गए नमूनों का उपयोग किया गया था। वैकल्पिक रूप से, हम केवल लेबल किए गए डेटा की मात्रा को कम कर सकते हैं और इसलिए, समान 90% सटीकता लेकिन कम लागत वाले मॉडल को प्रशिक्षित करें।

सलाहकार प्रशिक्षण: दोनों का सर्वश्रेष्ठ संयोजन

सक्रिय सीखने और स्वचालित लेबलिंग के वृद्धिशील सुधार को संयोजित करने के लिए, हमें एक मशीन सीखने की ज़रूरत है जिसमें दो मॉडल शामिल हैं। पहला, दिए गए नमूनों (सक्रिय शिक्षण) के लिए भविष्यवाणी सटीकता के बारे में अनिश्चितता को मापने के लिए एक भेदभावपूर्ण मॉडल और दूसरा, नमूनों (स्वचालित लेबलिंग) के लिए छद्म जमीनी सच्चाई का अनुमान लगाने के लिए एक पीढ़ीगत मॉडल। शिक्षार्थी के प्रशिक्षण दक्षता को बढ़ाने के लिए, हम दोनों मॉडल को प्रतिकूल प्रशिक्षण के माध्यम से संयुक्त रूप से अनुकूलित करना चाहते हैं। इस तरह, भेदभावपूर्ण मॉडल का उपयोग जेनेरेटिव मॉडल की भविष्यवाणियों को अनिश्चितताओं को असाइन करने के लिए भी किया जा सकता है और बदले में भविष्यवाणियों की सटीकता को बढ़ा सकता है। एक अत्याधुनिक मॉडल जिसने अनुसंधान समुदाय में एक मजबूत प्रतिष्ठा हासिल की है और बताई गई आवश्यकताओं को संतुष्ट करता है, को जनरेटिव एडवांसरियल नेटवर्क (जीएएन) कहा जाता है।

मानव-मशीन सहयोगात्मक शिक्षा GANs के साथ

ऊपर की आकृति में दिखाए गए ढांचे को ध्यान में रखते हुए, हम पहले गैर-एनोटोट डेटा के लिए छद्म जमीनी सच्चाई का अनुमान लगाने के लिए जनरेटर (जी) का उपयोग करते हैं। चूंकि विवेचक (डी) वास्तविक ज़मीनी सच्चाई के लिए न केवल अनिश्चितताओं को निर्दिष्ट करने में सक्षम है, बल्कि जी द्वारा भविष्यवाणी की गई भी है, हम अनब्लॉक किए गए नमूनों को कठिनाई या डी की अनिश्चितता के आधार पर सॉर्ट कर सकते हैं। हम उन नमूनों को परिभाषित करते हैं जिनके वितरण को पूरी तरह से कब्जा नहीं किया गया है। अभी तक मुश्किल के रूप में मॉडल और डी उन्हें मानव एनोटेटर का सुझाव देते हैं। हम जी के साथ स्वचालित रूप से एनोटेट डेटा का उत्पादन करने के लिए कम अनिश्चितता के साथ अन्य आसान नमूनों का उपयोग करते हैं। मानव मार्गदर्शन एक मजबूत डी में परिणाम देता है जिसे शिक्षक द्वारा निर्दिष्ट कार्य (सक्रिय सीखने) की आवश्यकताओं के अनुकूल किया जाता है। बदले में, बेहतर डी उच्च गुणवत्ता (स्वचालित एनोटेशन) के छद्म जमीनी सच्चाई का अनुमान लगाने के लिए जी को धक्का देगा। इस पुनरावृत्ति सुधार के कारण, GAN मानव और मशीन के संयुक्त रूप से अनुकूलित प्रशिक्षण प्रक्रिया में संयोजन के लिए एक प्राकृतिक ढांचे का प्रतिनिधित्व करते हैं।

जबकि विज्ञान कथा मशीनों और रोबोटों से भरी हुई है जो मानवता को खतरे में डालती है और जिससे संदेह का माहौल बनता है, प्रतिकूल प्रशिक्षण के साथ मानव-सहयोगात्मक सीखने की अवधारणा से पता चलता है कि कैसे मशीनें हमारे काम और जीवन को सकारात्मक तरीके से पूरक कर सकती हैं। वास्तव में, वर्णित दृष्टिकोण में स्वास्थ्य क्षेत्र में उदाहरण के लिए अनुप्रयोगों की एक भीड़ को बदलने की मजबूत क्षमता है। विशेष रूप से, हमारी टीम वर्तमान में 3 डी कार्डियोवास्कुलर चुंबकीय अनुनाद (एमआर) छवियों के विभाजन के लिए एक दृष्टिकोण विकसित कर रही है, जो रोगी-विशिष्ट हृदय मॉडल के निर्माण के लिए और इस प्रकार जटिल हृदय रोगों के उपचार के लिए एक महत्वपूर्ण शर्त है। हमारा उद्देश्य एक ऐसा मॉडल बनाना है जो स्व-निर्मित सेगमेंट से सीखता है और मैनुअल सेगमेंटेशन के लिए विशेषज्ञों को सक्रिय रूप से कठिन एमआर चित्र दिखाता है। यह इस जटिल प्रक्रिया पर खर्च किए गए खर्च और समय को काफी कम कर सकता है, जैसे कि रेडियोलॉजिस्ट रोगी की देखभाल के लिए अधिक समय दे सकते हैं। हालांकि यह विशिष्ट उदाहरण समाज पर अवधारणा के सकारात्मक प्रभाव को प्रदर्शित करता है, स्वास्थ्य क्षेत्र से परे आवेदन क्षेत्रों की एक भीड़ है, जो इस क्षेत्र में अनुसंधान के परिणामों से लाभान्वित होंगे।

MIDL 2019 के लिए पूर्ण शोध पत्र यहां देखें: मानव-मशीन सहयोगात्मक शिक्षण के माध्यम से अनिश्चितता-प्रेरित अर्थ विभाजन