मल्टी-एजेंट गेम्स के साथ भाषा का उभरना: प्रतीकों के अनुक्रम के साथ संवाद करना सीखना

सेरी हेवरीलोव और इवान टिटोव (एडिनबर्ग विश्वविद्यालय / एम्स्टर्डम विश्वविद्यालय से एमएल रिसर्च पार्टनर्स)

भाषा को नई पीढ़ियों तक ज्ञान हस्तांतरित करने के लिए भाषा मानव सभ्यता का एक अनिवार्य साधन रही है। भाषा की उत्पत्ति सदियों से लोगों के मन को लुभाती रही है और इसने कई अध्ययनों को जन्म दिया है।

हालांकि, हाल ही में, भाषा के उद्भव की जांच करने के लिए लगभग सभी गणितीय मॉडल को एल्गोरिथम और कम्प्यूटेशनल सीमाओं के कारण कम आयामी, सरल अवलोकन स्थानों तक सीमित करना पड़ा। पिछले वर्षों में, गहन शिक्षा समुदाय ने इस समस्या में काफी रुचि दिखाई है। निम्नलिखित पोस्ट एसएपी में मशीन लर्निंग रिसर्च टीम के साथ हमारे संयुक्त अनुसंधान परियोजना के दौरान भाषा विज्ञान और मशीन लर्निंग के क्षेत्र में हमारे मुख्य योगदान को रेखांकित करती है।

एक रेफरेंशियल गेम खेलना

भाषा का उपयोग करने की सबसे बुनियादी चुनौतियों में से एक निर्दिष्ट चीजों को संदर्भित करना है। इस प्रकार, यह आश्चर्यजनक नहीं है कि सीखने-से-संवाद करने के क्षेत्र में एक संदर्भ-योग्य खेल एक सेटिंग है। कई सीमित संवादात्मक तर्क कार्यों से युक्त, इन खेलों का उपयोग नियंत्रित सेटिंग में मशीनों की व्यावहारिक जाँच के लिए किया जाता है। हालांकि प्राथमिक रेफ़रेंशियल गेम के लिए कई एक्सटेंशन संभव हैं, हमने निम्नलिखित गेम सेटअप के साथ आगे बढ़ने का फैसला किया है:

  1. एक लक्ष्य छवि को छवियों के संग्रह से चुना जाता है जिसमें \ (K \) विचलित करने वाली छवियां होती हैं।
  2. दो एजेंट हैं: एक प्रेषक और एक रिसीवर।
  3. लक्ष्य छवि को देखने के बाद, प्रेषक को एक संदेश के साथ आना होगा जो एक निश्चित आकार की शब्दावली से प्रतीकों के अनुक्रम द्वारा दर्शाया गया है। अनुक्रम की अधिकतम संभव लंबाई है।
  4. उत्पन्न संदेश और विचलित छवियों और लक्ष्य छवि से मिलकर छवियों के सेट को देखते हुए, रिसीवर को सही लक्ष्य छवि की पहचान करनी चाहिए।

नतीजतन, इस संदर्भीय खेल में सफल होने के लिए, प्रेषक को सावधानीपूर्वक शब्दों का चयन करना होगा और उन्हें एक अनुक्रम में रखना होगा, जिससे रिसीवर के लिए यह आसान होगा कि वह प्रेषक को सही ढंग से पहचान सके कि किस छवि को दिखाया गया था। सेटिंग अनिवार्य रूप से इस क्षेत्र में पिछले अध्ययनों से अलग है क्योंकि उदाहरण के लिए हमारा दृष्टिकोण संदेशों को उत्पन्न करने के लिए एकल प्रतीकों के बजाय दृश्यों का उपयोग करता है, जो हमारी सेटिंग को सीखने के दृष्टिकोण से अधिक यथार्थवादी और चुनौतीपूर्ण बनाता है।

एजेंटों

दोनों एजेंटों, प्रेषक और रिसीवर, को आवर्तक तंत्रिका नेटवर्क के रूप में कार्यान्वित किया जाता है, अर्थात् दीर्घकालिक अल्पकालिक स्मृति नेटवर्क, जो अनुक्रम बनाने और प्रसंस्करण के लिए मानक उपकरणों में से एक है। नीचे दिया गया आंकड़ा एक मॉडल के स्केच को दर्शाता है जहां ठोस तीर निर्धारक संगणनाओं का प्रतिनिधित्व करते हैं। पहले से प्राप्त शब्द की नकल करते हुए डैश किए गए तीर। और अंत में, हीरे के आकार के तीर शब्दावली से एक शब्द का नमूना लेते हैं।

शायद, यह मॉडल का सबसे महत्वपूर्ण और सबसे अधिक परेशानी वाला हिस्सा है। एक ओर, यह एक महत्वपूर्ण तत्व है क्योंकि यह वह जगह है जहां एक प्रेषक निर्णय लेता है कि आगे क्या कहना है। दूसरी ओर, यह परेशान करने वाला है क्योंकि यह स्टोकेस्टिक है। दुर्भाग्य से, एक सर्वव्यापी backpropagation एल्गोरिथ्म तंत्रिका नेटवर्क की परतों में से प्रत्येक में निरंतर भिन्न कार्यों की श्रृंखला होने पर निर्भर करता है। हालांकि, इस विशेष आर्किटेक्चर में असतत संभाव्यता वितरण से गैर-अलग-अलग नमूने शामिल हैं, जिसका अर्थ है कि हम अभी बैकप्रोपैजेशन का उपयोग नहीं कर सकते हैं।

किसी प्रेषक की दृश्य प्रणाली एक संवेदी तंत्रिका नेटवर्क (CNN) के रूप में कार्यान्वित की जाती है। हमारे मामले में, छवियों का प्रतिनिधित्व CNN की छिपी हुई परत के आउटपुट द्वारा किया जाता है। जैसा कि आप ऊपर दिए गए आंकड़े से देख सकते हैं, एक संदेश क्रमिक रूप से नमूने द्वारा प्राप्त किया जाता है जब तक कि अधिकतम संभव लंबाई तक नहीं पहुंच जाता है या विशेष टोकन "संदेश का अंत" उत्पन्न होता है।

सीख रहा हूँ

संदर्भ खेल के संदर्भ में एक रिसीवर एजेंट के व्यवहार को सीखना अपेक्षाकृत आसान है। चूंकि यह एंड-टू-एंड अलग-अलग है, इसलिए इसके मापदंडों के संबंध में नुकसान फ़ंक्शन के ग्रेडिएंट का कुशलता से अनुमान लगाया जा सकता है। असली चुनौती प्रेषक एजेंट को सीखना है। इसके कम्प्यूटेशनल ग्राफ में नमूना होता है, जो इसे गैर-विभेदी बनाता है। बेसलाइन के रूप में, हमने एक REINFORCE एल्गोरिथ्म लागू किया। यह विधि स्टोकेस्टिक पॉलिसी के मापदंडों के संबंध में नुकसान फ़ंक्शन के ग्रेडिएंट्स का आकलन करने का एक सरल तरीका प्रदान करती है। हालांकि यह निष्पक्ष है, इसमें आमतौर पर एक विशाल विचरण होता है और यह तथ्य एक मॉडल की सीख को धीमा कर देता है। सौभाग्य से, पिछले साल दो समूहों ने स्वतंत्र रूप से एक पक्षपाती लेकिन कम-भिन्नता वाले अनुमानक की खोज की - गम्बल-सॉफ्टमैक्स अनुमानक (जीएस अनुमानक)। यह अपने निरंतर समकक्ष के साथ एक मूल असतत चर को आराम करने की अनुमति देता है। यह सब कुछ अलग-अलग बनाता है, जो बैकप्रॉपैगैशन एल्गोरिथ्म के आवेदन की अनुमति देता है। जैसा कि यह विषय काफी बड़ा है और इसके स्वयं के पोस्ट के हकदार हैं, हम आपको इस पद्धति के लेखकों में से एक से एक ब्लॉग पोस्ट पढ़ने के लिए प्रोत्साहित करते हैं।

हमारी खोजें

मॉडल सीखने के बाद हमने पहली चीज की जांच की, वह थी सफलता की दर। जब लक्ष्य छवि को सही तरीके से पहचाना जाता है तो हम दो एजेंटों के बीच संचार को सफल मानते हैं। जैसा कि नीचे दिए गए आंकड़े से देखा जा सकता है, Gumbel-Softmax अनुमानक (लाल और नीले रंग की वक्र) का उपयोग करने वाले परिणाम REINFORCE एल्गोरिदम (पीले और हरे रंग की वक्र) की तुलना में बेहतर होते हैं, सिवाय इसके कि जब एजेंटों को एक शब्द का उपयोग करके संवाद करने की अनुमति दी जाती है।

हम मानते हैं कि इस अपेक्षाकृत सरल सेटिंग में, REINFORCE का विचलन कोई समस्या नहीं है और निष्पक्ष रहने की संपत्ति बंद हो जाती है। उसी समय, जीएस अनुमानक के पूर्वाग्रह ने इसे इष्टतम समाधान से दूर कर दिया। इसके अलावा, यह साजिश अंतर्ज्ञान के साथ हाथ में जाती है और स्पष्ट रूप से दिखाती है कि अधिक शब्दों का उपयोग करके कोई छवि का अधिक सटीक वर्णन कर सकता है।

हमने यह भी जांच की कि संचार प्रोटोकॉल को सीखने के लिए एजेंटों के बीच कितनी बातचीत की जानी है। हमारे आश्चर्य के बहुत से, हमने देखा कि जीएस अनुमानक (ग्रीन वक्र) के साथ प्रशिक्षण अभिसरण प्राप्त करने के लिए आवश्यक अपडेट की संख्या घट जाती है जब हम किसी प्रेषक को लंबे संदेशों का उपयोग करने देते हैं। यह व्यवहार थोड़ा उल्टा है क्योंकि कोई यह उम्मीद कर सकता है कि प्रोटोकॉल सीखना कठिन है, जब संचार प्रोटोकॉल का खोज स्थान बड़ा होता है। दूसरे शब्दों में, लंबे दृश्यों का उपयोग करने से संचार प्रोटोकॉल तेजी से सीखने में मदद मिलती है। हालाँकि, यह REINFORCE अनुमानक (लाल वक्र) के लिए ऐसा नहीं है: यह आमतौर पर GS अनुमानक की तुलना में अभिसरण करने के लिए पांच गुना अधिक अद्यतन लेता है। साथ ही, संदेश की अधिकतम संख्या और संदेश की अधिकतम संभावित लंबाई के बीच कोई स्पष्ट निर्भरता नहीं है।

इसके अलावा, हम एनकोडर की गड़बड़ी की साजिश रचते हैं, जो निश्चित रूप से मापता है कि एक प्रेषक को शब्दावली के ऊपर संभाव्यता वितरण से नमूना लेते समय प्रत्येक चरण में कितने विकल्प चुनने होते हैं। हम देख सकते हैं कि जीएस अनुमानक (ग्रीन कर्व) के लिए, विकल्पों की संख्या अपेक्षाकृत अधिक है और वाक्य की लंबाई के साथ बढ़ रही है, जबकि REINFORCE एल्गोरिथ्म (लाल वक्र) के लिए perplexity की वृद्धि उतनी तीव्र नहीं है। इसका अर्थ एन्कोडिंग में अतिरेक है, जिसका अर्थ है कि एक ही शब्दार्थ सामग्री को एन्कोडिंग करने वाले कई पैराफ्रीज मौजूद हैं।

सीखी हुई भाषा कैसी लगती है? इस भाषा की प्रकृति को बेहतर ढंग से समझने के लिए, हमने मॉडल द्वारा उत्पादित 5 इकाइयों के बराबर अधिकतम संभव संदेश लंबाई के साथ वाक्यों के एक छोटे उपसमूह का निरीक्षण किया। सबसे पहले, हमने एक वस्तु का एक यादृच्छिक फोटो लिया और एक संदेश उत्पन्न किया। फिर हमने डेटासेट और बेतरतीब ढंग से चयनित छवियों के साथ पुनरावृत्ति की, जो उत्पन्न संदेश के साथ 1, 2 और 3 प्रतीकों के उपसर्ग साझा करते हैं।

उदाहरण के लिए, जानवरों की छवियों के सबसेट का उपयोग करते हुए बाईं आकृति की पहली पंक्ति कुछ नमूने दिखाती है जो कोड के अनुरूप है (5747 * * * *)। यहां "*" का अर्थ शब्दावली या अंत-वाक्य पैडिंग से कोई भी शब्द है।

हालांकि, ऐसा लगता है कि (* * * 5747 *) कोड के लिए छवियां किसी पूर्वनिर्धारित श्रेणी के अनुरूप नहीं हैं। इससे पता चलता है कि विकसित भाषा में शब्द क्रम महत्वपूर्ण है। विशेष रूप से, पहली स्थिति में शब्द 5747 छवि में एक जानवर की उपस्थिति को दर्शाता है। एक ही आंकड़ा दिखाता है कि संदेश (5747 5747 7125 * *) भालू की एक विशेष प्रजाति से मेल खाता है, जो आगे बताता है कि विकसित भाषा किसी प्रकार के पदानुक्रमित कोडिंग को लागू करती है। यह उच्च ब्याज है क्योंकि मॉडल को किसी भी श्रेणीबद्ध एन्कोडिंग योजना का उपयोग करने के लिए स्पष्ट रूप से विवश नहीं किया गया है। संभवतः, यह योजना मॉडल को कुशलतापूर्वक अनदेखी छवियों का वर्णन करने में मदद कर सकती है। फिर भी, प्राकृतिक भाषा संरचना को सुनिश्चित करने के लिए अन्य सिद्धांतों का उपयोग करती है। मॉडल आमतौर पर लागू होता है क्योंकि यह खाद्य क्षेत्र में छवियों के लिए समान व्यवहार दिखाता है (ऊपर चित्र में सही छवि)।

हमारे अध्ययन में, हमने दिखाया है कि तंत्रिका नेटवर्क का उपयोग करने वाले मॉडल सफलतापूर्वक एक कुशल भाषा का आविष्कार कर सकते हैं जिसमें असतत टोकन के अनुक्रम होते हैं। हमने यह भी पाया कि जब हम उन्हें प्रतीकों के लंबे दृश्यों का उपयोग करने की अनुमति देते हैं तो एजेंट संचार प्रोटोकॉल को अधिक तेज़ी से विकसित कर सकते हैं। इसके अलावा, हमने देखा कि प्रेरित भाषा एक पदानुक्रमित एन्कोडिंग योजना को लागू करती है और इसमें कई पैराफ्रीज़ मौजूद होते हैं जो समान अर्थ सामग्री को एन्कोड करते हैं। भविष्य के काम में, हम मॉडलिंग के लक्ष्य-उन्मुख संवाद प्रणालियों के लिए इस दृष्टिकोण का विस्तार करना चाहेंगे।

एंटरप्राइज़ क्षेत्र, विशेष रूप से बैंकिंग, बीमा और दूरसंचार क्षेत्र में चैटबोट और संवादी एआई प्लेटफ़ॉर्म तेजी से महत्वपूर्ण हो गए हैं। हालांकि, इन तकनीकों के निर्माण के लिए वर्तमान दृष्टिकोण अभी भी व्यापक मानव पर्यवेक्षण पर निर्भर करते हैं। मनुष्य को या तो नियम बनाने या सफल संवादों के उदाहरण देने की आवश्यकता होती है, जो बुद्धिमान सहायकों को प्रशिक्षित करने के लिए उपयोग किए जाते हैं। यह जटिल कार्यों के लिए कठिन है क्योंकि गुणवत्ता पर्यवेक्षण महंगा और समय लेने वाला है। इसके अलावा, मानवीय दृष्टिकोण असंगत हो सकते हैं या कार्यों को हल करने के अधिक प्रभावी तरीके हो सकते हैं। हमारा दृष्टिकोण इस मानक परिदृश्य को बदलने या पूरक करने के लिए आशाजनक क्षमता रखता है: चैटबॉट्स तब अतिरिक्त लागत प्रभावी पर्यवेक्षण को सक्षम करने के साथ कार्य पूरा होने पर प्रतिक्रिया का उपयोग कर सकते हैं। कुछ बिंदु पर, यह कम समय में और कम खर्च के साथ सफल डिजिटल सहायक बनाने में मदद कर सकता है। हम यह भी उम्मीद करते हैं कि यह मशीनों को स्पष्ट मानवीय हस्तक्षेप या नए डेटा सेट की आवश्यकता के बिना मौजूदा परिदृश्यों में नए परिदृश्यों और परिवर्तनों का सामना करने में सक्षम बनाएगा।

हमने NIPS’17 पर अपना काम प्रस्तुत किया। अधिक जानकारी और हमारे अध्ययन के तकनीकी विवरणों के लिए, कृपया देखें: बहु-एजेंट खेलों के साथ भाषा का उभरना: प्रतीकों के अनुक्रम के साथ संवाद करना सीखना।