सुदृढीकरण सीखना: व्यावसायिक उपयोग का मामला, भाग 1

सुदृढीकरण सीखने के चक्कर की शुरुआत दीपमाइंड द्वारा अल्फा गो के आगमन के साथ हुई, एआई सिस्टम ने गेम गो खेलने के लिए बनाया। तब से, विभिन्न कंपनियों ने समय, ऊर्जा और अनुसंधान का एक बड़ा निवेश किया है, और आज सुदृढीकरण सीखने को डीप लर्निंग के भीतर गर्म विषयों में से एक है। उस ने कहा, अधिकांश व्यवसाय सुदृढीकरण सीखने के लिए उपयोग के मामलों को खोजने के लिए संघर्ष कर रहे हैं या अपने व्यापार तर्क के भीतर इसे शामिल करने के तरीके। इससे हमें कोई आश्चर्य नहीं होना चाहिए। अब तक, इसका अध्ययन केवल जोखिम-रहित, अवलोकन किए गए वातावरण में किया गया है, जो अनुकरण करना आसान है, जिसका अर्थ है कि वित्त, स्वास्थ्य, बीमा, तकनीक-परामर्श जैसे उद्योग अपने अनुप्रयोगों का पता लगाने के लिए अपने स्वयं के धन को जोखिम में डालने से अनिच्छुक हैं। क्या अधिक है, सुदृढीकरण सीखने के भीतर "जोखिम फैक्टरिंग" का पहलू सिस्टम पर एक उच्च दबाव डालता है। कौरसेरा के सह-अध्यक्ष और कोफ़ाउंडर एंड्रयू एनजी ने कहा है कि “सुदृढीकरण सीखना एक प्रकार की मशीन सीखना है, जिसकी डेटा के लिए भूख पर्यवेक्षण की गई शिक्षा से भी अधिक है। सुदृढीकरण सीखने के एल्गोरिदम के लिए पर्याप्त डेटा प्राप्त करना वास्तव में मुश्किल है। व्यवसायों और व्यवहार में इसका अनुवाद करने के लिए और अधिक काम किया जाना है। ”

कुछ हद तक निराशावादी विचार के साथ, इस ब्लॉग के भाग 1 का उपयोग सुदृढीकरण सीखने के तकनीकी पहलू में थोड़ा गहरा खुदाई करने के लिए करें। भाग 2 में, हम व्यवसाय के कुछ संभावित अनुप्रयोगों को देखेंगे। आधार पर, आरएल एक लंबी अवधि या अल्पकालिक इनाम के लिए अनुकूलन करते हुए, अवलोकन किए गए संस्थानों और कुछ कार्यों के उपायों को मैप करने के लिए एक जटिल एल्गोरिथ्म है। आरएल एजेंट पर्यावरण के साथ बातचीत करता है और नीतियों को सीखने की कोशिश करता है, जो इनाम प्राप्त करने वाले निर्णयों या एक्शनस्टॉवर्ड के अनुक्रम होते हैं। वास्तव में, आरएल तत्काल पुरस्कारों और विलंबित पुरस्कारों पर विचार करता है क्योंकि यह एजेंट के साथ अपनी बातचीत को चलाता है।

एक सुदृढीकरण सीखने के मॉडल में एक एजेंट होता है जो एक कार्रवाई को प्रभावित करता है जो फिर पर्यावरण में बदलाव करने के लिए कार्य करता है, और इनाम समारोह का उपयोग करके कार्रवाई का महत्व परिलक्षित होता है। इस इनाम को एजेंट के लिए अनुकूलित किया जाता है और एजेंट को फीडबैक दिया जाता है ताकि वह अगली सर्वश्रेष्ठ कार्रवाई का आकलन कर सके। सिस्टम पिछली कार्रवाई से समान परिस्थितियों में लेने के लिए सबसे अच्छी कार्रवाई को याद करके सीखता है।

अंजीर 1: सुदृढीकरण सीखना मॉडल

गणित के दृष्टिकोण से, हम सुदृढीकरण सीखने को एक राज्य मॉडल के रूप में देख सकते हैं, विशेष रूप से एक पूरी तरह से अवलोकन मार्कोव निर्णय प्रक्रिया (एमडीपी)। एमडीपी के पीछे के संभाव्य सिद्धांत को समझने के लिए, हमें मार्कोव संपत्ति को जानना होगा:

"भविष्य वर्तमान को देखते हुए अतीत से स्वतंत्र है"

मार्कोव संपत्ति का उपयोग उन स्थितियों में किया जाता है जहां विभिन्न परिणामों की संभावनाएं पिछले राज्यों पर निर्भर नहीं होती हैं; इसलिए, इसे केवल वर्तमान स्थिति की आवश्यकता है। कुछ लोग संपत्ति का वर्णन करने के लिए "मेमोरीलेस" शब्द का उपयोग करते हैं। उन स्थितियों में जहां आपको परिणाम की सूचना देने के लिए पिछले राज्यों की आवश्यकता होती है, एक मार्कोव निर्णय प्रक्रिया ने काम नहीं किया।

मॉडल का वातावरण एक स्टोकेस्टिक परिमित अवस्था मशीन है, जिसमें इनपुट के रूप में एजेंट से दिए गए कार्य होते हैं और जहां पर्यावरण से एजेंट को भेजे गए पुरस्कार / प्रतिक्रिया आउटपुट होते हैं। समग्र इनाम समारोह में तत्काल पुरस्कार और विलंबित पुरस्कार शामिल हैं। तत्काल इनाम राज्य पर्यावरण पर कार्रवाई का मात्रात्मक प्रभाव है। विलंबित इनाम पर्यावरण के भविष्य के राज्यों पर कार्रवाई का प्रभाव है। विलंबित इनाम को ed छूट कारक (’)’ पैरामीटर, 0 <γ <1 का उपयोग करने के लिए जिम्मेदार है। डिस्काउंट फैक्टर के लिए एक उच्च मूल्य प्रणाली को दूरदर्शी पुरस्कारों की ओर इंगित करता है, जबकि कम मूल्य प्रणाली को तत्काल पुरस्कारों की ओर इंगित करता है। X (t) उस समय पर्यावरण स्थिति का प्रतिनिधित्व करता है जो 't' है। ए (टी) एजेंट द्वारा 'टी' के समय पर की गई कार्रवाई है।

· राज्य संक्रमण समारोह: एजेंट द्वारा दिए गए कार्यों के परिणामस्वरूप पर्यावरण में एक राज्य से दूसरे तक।

एजेंट को एक स्टोचस्टिक परिमित राज्य मशीन के रूप में भी तैयार किया जाता है, जहां पर्यावरण से भेजे गए पुरस्कार इनपुट होते हैं और अगली बार कदम के लिए पर्यावरण को भेजे गए कार्य आउटपुट होते हैं। S (t) उस समय एजेंट की वर्तमान स्थिति है जो 't' में पर्यावरण से प्राप्त प्रतिक्रिया के बाद पर्यावरण से 't-1' पर कार्रवाई ए (t) के बाद होती है, जो कि कुल मिलाकर मॉडल लर्निंग का उपयोग करके बनाई जा रही नीति का संकेत है इनाम अनुकूलन।

· राज्य संक्रमण समारोह: वातावरण द्वारा दिए गए पुरस्कारों के परिणामस्वरूप एजेंट में एक राज्य से दूसरे राज्य में।

· पॉलिसी फ़ंक्शन: इनाम फ़ंक्शन के अनुकूलन के आधार पर कार्रवाई करने के लिए एजेंट से पॉलिसी / आउटपुट फ़ंक्शन।

एजेंट का लक्ष्य पॉलिसी पी (पीआई) को ढूंढना है, जो छूट कारक के साथ समग्र अपेक्षित इनाम को अधिकतम करता है।

एमडीपी से प्रशिक्षित एजेंट वर्तमान राज्य से पुरस्कार की सबसे अधिक अपेक्षित राशि प्राप्त करने की कोशिश करता है। इसलिए, इष्टतम मान फ़ंक्शन प्राप्त करने की आवश्यकता है। बेलमैन समीकरण का उपयोग मूल्य फ़ंक्शन के लिए किया जाता है, जो वर्तमान इनाम में विघटित होता है और अगले राज्य के मूल्य का रियायती मूल्य होता है।

मुझे उम्मीद है कि आपको अब तक सुदृढीकरण सीखने के तकनीकी पहलुओं का एक दृश्य मिल गया है !!

इस पोस्ट-सीरीज़ के अगले भाग में, हम एक वास्तविक दुनिया के आवेदन को वित्तीय उद्योग के व्यावसायिक उपयोग के मामले के रूप में देखेंगे, जो स्टॉक ट्रेडिंग होगा।

सीखते रहो दीप!