मशीन लर्निंग रिसर्चर के जीवन में 30 दिन

यदि आप पीएचडी के लिए जाने के बारे में सोच रहे हैं, तो बहुत सारे उत्कृष्ट मार्गदर्शक हैं जिन्हें मैं पढ़ने की सलाह दूंगा। हालाँकि, अधिकांश मार्गदर्शिकाएँ मैंने डॉक्टरेट की खोज के उच्च-स्तरीय चित्र पर ध्यान केंद्रित करते हुए पढ़ी हैं, न कि यह कि आपके प्रयोगशाला में बैठे-बैठे, अनुसंधान करते हुए दिन-प्रतिदिन कैसा महसूस होता है।

जब मैंने तीन साल पहले स्टैनफोर्ड में अपनी पीएचडी शुरू की थी, तो मुझे नहीं पता था कि मैं एक कठिन समस्या के खिलाफ अपना सिर पीटने और दृष्टि में कोई स्पष्ट समाधान के साथ मॉनिटर में घूरने में कितना समय लगाऊंगा। मैं यह भी महसूस नहीं कर सकता था कि जब मेरे घर के रास्ते में कैंपस से टकराकर एक अप्रत्याशित मिर्गी आएगी तो यह कितना अद्भुत होगा। मैं अपने कुछ कच्चे अनुभवों को उन लोगों के साथ साझा करना चाहता था जो यह तय कर रहे हैं कि क्या वे शोध में जाना चाहते हैं, खासकर मशीन लर्निंग के मेरे क्षेत्र में।

जनवरी 2019 के महीने के लिए हर दिन, मैंने मुख्य तकनीकी कार्यों (पूरे लेख में बोल्ड) पर ध्यान दिया, जो मैंने उस दिन काम किया था, साथ ही साथ मेरी भावनात्मक स्थिति (इटैलिक-बोल्ड), आपको एक विंडो देने के लिए। पीएचडी छात्र सीखने वाली मशीन का दिल और दिमाग।

जनवरी का महीना एक मनोवैज्ञानिक रोलर कोस्टर था: एक तरफ, मैंने रात और दिन काम करना शुरू कर दिया और आईसीएमएल सम्मेलन में प्रस्तुत करने के लिए दो नए पेपर तैयार किए। दूसरी ओर, मैंने हवाई में एएएआई सम्मेलन में भाग लेने के महीने को पूरा किया, जहां मैंने सुंदर हनुमा खाड़ी पर धूप में बैठे इस लेख के कुछ हिस्सों का मसौदा तैयार किया। बीच के हफ्तों में, मैंने एक महान जर्नल क्लब की बात में भाग लिया, जिसमें तुर्की के एक अंडरग्रेजुएट छात्र का उल्लेख किया, और हमारे कंप्यूटिंग क्लस्टर को आईसीएमएल की समय सीमा से पहले दिन विफल होने से बचाने की कोशिश की।

लेकिन मुझे महीने की शुरुआत से शुरू करते हैं ...

पीएचडी के छात्र के रूप में, आपको पृथ्वी पर सबसे सुंदर स्थानों में से एक होने पर भी अनुसंधान समस्याओं के बारे में सोचना मुश्किल नहीं होगा।

2 जनवरी: परिवार छोड़कर स्टैनफोर्ड लौटना

मैंने अर्कांसस में अपने परिवार के साथ अधिकतर शीतकालीन अवकाश बिताया था, लेकिन महीने की 2 तारीख को मैं स्टैनफोर्ड लौट आया। तकनीकी रूप से, स्टैनफोर्ड के शैक्षणिक कैलेंडर पर सूचीबद्ध छुट्टी का एक और सप्ताह था, लेकिन पीएचडी के छात्र विशिष्ट शैक्षणिक अनुसूची का पालन नहीं करते हैं - आपके और आपके सलाहकार के बीच कोई भी ब्रेक का फैसला किया जाता है।

इसका मतलब है कि आपके सलाहकार आपको अक्टूबर के मध्य में एक सप्ताह की छुट्टी दे सकते हैं यदि आप जला हुआ महसूस करते हैं; लेकिन इसका मतलब यह भी था कि जनवरी के मध्य में आईसीएमएल की समय सीमा समाप्त होने के साथ, मुझे लगा कि मुझे स्टैनफोर्ड लौटना चाहिए और अपने सम्मेलन में काम करना शुरू करना चाहिए। यह एक महत्वपूर्ण निर्णय था, लेकिन लगभग निश्चित रूप से एक बुद्धिमान व्यक्ति, जैसा कि मुझे एहसास हुआ कि जब मैंने ICML के लिए अपने सबमिशन पर काम करना शुरू किया ...

3–4 जनवरी: पेपर 1 के लिए एक वीएई को लागू करना

व्यवसाय का मेरा पहला आदेश उस समस्या को स्पष्ट रूप से परिभाषित करना था जो मैं सर्दियों के विराम से पहले बिट्स और टुकड़ों में काम कर रहा था, साथ ही साथ एक आधारभूत कोड को कोड करता था जिसका उपयोग मैं अपने प्रस्तावित एल्गोरिदम की तुलना में कर सकता था।

अपने पहले पेपर के लिए, मैं डेटा में अव्यक्त सुविधाओं को सीखने के लिए एक नए तरीके पर काम कर रहा था। अव्यक्त विशेषताएं महत्वपूर्ण निम्न-स्तरीय चर की पहचान करके जटिल डेटा का प्रतिनिधित्व करने का एक तरीका है जो डेटा में उच्च-स्तरीय भिन्नता को समझाता है। उदाहरण के लिए, यदि आपके पास सेलिब्रिटी चेहरे की छवियों का एक गुच्छा है, तो हर एक बाकी से बहुत अलग दिखने वाला है। लेकिन आप केवल कुछ "आयाम", जैसे कि त्वचा का रंग, चेहरे का कोण, और बालों की लंबाई को बदलकर छवियों का अनुमान लगाने में सक्षम हो सकते हैं।

इस तरह के अव्यक्त आयामों या विशेषताओं की पहचान करने के लिए एक बहुत ही सामान्य एल्गोरिथ्म को परिवर्तनशील ऑटोकेनोडर (VAE) के रूप में जाना जाता है। यहां एक वीएई का एक उदाहरण दिया गया है, जिसमें मशहूर हस्तियों की छवियों में 2 अव्यक्त विशेषताओं को पहचानने के लिए प्रशिक्षित किया गया है (सेलेबसिमोन से लिया गया)। जब आप क्षैतिज या लंबवत रूप से छवियों के इस ग्रिड के साथ आगे बढ़ते हैं, तो एक समय में एक अव्यक्त सुविधा के मूल्य को बदलकर, मैंने नई छवियां उत्पन्न करने के लिए VAE का उपयोग किया:

यहां, सेलिब्रिटी छवियों पर प्रशिक्षित एक VAE का उपयोग एक समय में एक आयाम को बदलकर, नई सेलिब्रिटी छवियों को उत्पन्न करने के लिए किया जाता है। नीचे-बाएँ से ऊपर-दाएँ जाने वाला आयाम बालों की लंबाई (या पृष्ठभूमि रंग) का प्रतिनिधित्व करता है, जबकि ऊपर-बाएँ से नीचे-दाएँ जाने वाला आयाम त्वचा के रंग का प्रतिनिधित्व करता है। चूँकि हम केवल 2 अव्यक्त चरों की अनुमति देते हैं, इसलिए उत्पन्न चित्र यथार्थवादी नहीं हैं।

आप देखेंगे कि वीएई मुख्य रूप से दो चीजों को बदल रहा है: छवियों में त्वचा का रंग और पृष्ठभूमि का रंग / बालों की लंबाई। यह उल्लेख करना महत्वपूर्ण है कि VAE अनारक्षित है: मैंने विशेष रूप से बालों की लंबाई या त्वचा के रंग के लिए खोज करने के लिए एल्गोरिथ्म नहीं बताया था। तो आप सोच रहे होंगे: VAE ने इन दो अव्यक्त विशेषताओं की पहचान क्यों की?

कारण यह है कि इन दो विशेषताओं को समायोजित करने से VAE को मूल डेटासेट में सेलिब्रिटी छवियों को न्यूनतम त्रुटि के साथ पुनर्निर्माण करने की अनुमति मिलती है। दूसरे शब्दों में, यदि आपको केवल दो कारकों को चुनना था, जिन्हें आप एक सामान्य चेहरे से बदलकर लगभग किसी भी मनमानी सेलिब्रिटी को प्राप्त कर सकते हैं, तो ये दो कारक आपको बहुत दूर तक मिलेंगे।

मैं एक नया एल्गोरिथ्म विकसित करना चाहता था जो उपयोगकर्ता को उस पर अधिक नियंत्रण रखने की अनुमति देगा जिसमें अव्यक्त विशेषताएं सीखी गई थीं। निश्चित रूप से, कुछ मामलों में आप अव्यक्त सुविधाओं के एक अलग सेट की खोज करना और उसे ट्विस्ट करना चाहते हैं: उदाहरण के लिए, लिपस्टिक की मात्रा या सेलिब्रिटी की टोपी का रंग। जिन कारणों से मैं बाद में आउंगा, मैंने अपने एल्गोरिथ्म को कंट्रासेप्टिव वैरिएबल ऑटोकेनोडर (cVAE) कहा।

लेकिन अगर मैं यह दिखाना चाहता था कि मेरा सीवीई काम कर रहा था, तो मुझे इसकी तुलना करने के लिए आधार रेखा की आवश्यकता थी। प्राकृतिक विकल्प मानक VAE होगा। इसलिए मैंने निम्नलिखित पर काम करने में कुछ दिन बिताए:

  • CelebA छवि डाटासेट डाउनलोड और प्रीप्रोसेस करना
  • TensorFlow (Keras) में VAE के लिए कोड लिखना, और CelebA छवि डेटासेट पर VAE को प्रशिक्षित करना।

मुझे अनुभव बहुत सीधा और मजेदार लगा, क्योंकि मैं ज्यादातर मौजूदा ट्यूटोरियल और कोड का पालन कर रहा था, केवल तंत्रिका नेटवर्क की वास्तुकला से संबंधित कुछ हाइपरपैरमीटर अलग-अलग थे। और यह काफी संतोषजनक लगा जब प्रशिक्षित VAE ऊपर की छवियों का उत्पादन करने में सक्षम था।

जनवरी 5-6: वीकेंड के माध्यम से काम करना

मैंने कई बार अपने आप से कहा कि मैं शनिवार और रविवार को काम नहीं करूंगा, और मुझे एक काम के जीवन-संतुलन की खोज करने की आवश्यकता है। लेकिन जब कठिन हो जाता है, तो मैं तुरंत सप्ताहांत पर प्रयोगशाला को मारने के लिए डिफ़ॉल्ट रूप से। यह महसूस करते हुए कि आईसीएमएल तक मेरे पास लगभग तीन सप्ताह थे, और मंगलवार को मेरे सलाहकार के साथ एक बैठक के साथ, मैंने अपनी हताशा के माध्यम से थोड़ा सा समय बिताया और अपने कार्यालय में अधिकांश सप्ताहांत बिताया, एक स्की यात्रा को छोड़कर जो मेरे दोस्तों ने ताहो को योजना बनाई थी।

मैंने वीकेंड पर क्या किया? जैसा कि मैंने पहले उल्लेख किया है, मैं उन आंकड़ों की तुलना में अव्यक्त कारकों की पहचान करने के लिए एक विधि पर काम कर रहा था जो डेटा में केवल प्रमुख थे। यह विचार विपरीत विश्लेषण (इसलिए नाम, कंट्रास्टिव वीएई) का उपयोग करने के लिए था, एक विधि जिसमें एक द्वितीयक पृष्ठभूमि डेटासेट पेश किया जाता है, जिसमें ब्याज की विशेषताएं शामिल नहीं होती हैं। मैंने स्पष्ट रूप से अव्यक्त विशेषताओं को डिजाइन करने के लिए विषम प्राथमिकताओं को डिज़ाइन किया था जो प्राथमिक डाटासेट और पृष्ठभूमि डेटासेट दोनों में मौजूद थे, साथ ही साथ वे जो प्राथमिक डेटासेट में मौजूद थे।

इस विचार को चित्रित करने के लिए एक उदाहरण है। मान लीजिए कि आपके पास हाथ से लिखे अंकों की छवियों का एक गुच्छा है, जिसमें एक जटिल पृष्ठभूमि है, जैसे घास की छवियों पर। हम इसे लक्ष्य डेटासेट कहेंगे। आपके पास केवल घास वाली छवियां हैं (जरूरी नहीं कि लक्ष्य डेटासेट में उपयोग किए जाने वाले समान हों, लेकिन लगभग समान)। हम इसे पृष्ठभूमि का डेटासेट कहते हैं। प्रत्येक प्रकार की छवि के उदाहरण नीचे दिए गए हैं:

लक्ष्य डेटासेट (बाएं) और पृष्ठभूमि डेटासेट (दाएं) में छवियों के उदाहरण।

आप हस्तलिखित अंकों से संबंधित अव्यक्त सुविधाओं की पहचान करने के लिए लक्षित डेटासेट पर एक वीए को प्रशिक्षित करना चाहते हैं: 0, 1s, और 2s की छवियां प्रत्येक ऐसे अव्यक्त स्थान से बहुत दूर होनी चाहिए। हालांकि, लक्ष्य डेटा पर प्रशिक्षित एक मानक VAE ऐसे डेटासेट में भिन्नता के प्रमुख स्रोतों की पहचान करेगा जो कि घास से संबंधित हो, जैसे कि बनावट और घनत्व, क्योंकि ये छवि पर हावी हैं (इस अर्थ में कि अधिक पिक्सेल हाथ से लिखी अंकों की सुविधाओं की तुलना में घास की विशेषताओं से संबंधित हैं), और अंकों से संबंधित सुविधाओं की पूरी तरह से उपेक्षा करें।

क्या होगा अगर हमने इसके बजाय VAE को उन विशेषताओं की पहचान करने के लिए प्रोत्साहित किया जो लक्ष्य डेटासेट में मौजूद थीं, लेकिन पृष्ठभूमि में नहीं? एक आशा करता है कि यह विपरीत डिजिटली-संबंधित सुविधाओं को सीखने के लिए एल्गोरिदम को प्रोत्साहित करने के लिए पर्याप्त होगा। मैंने सिंथेटिक डेटा पर सही प्रकार के परिणाम प्राप्त करने के लिए वीएई के नुकसान फ़ंक्शन को अनुकूलित करने के विभिन्न तरीकों की कोशिश करते हुए शनिवार और रविवार को बिताया। परिणामों के सार्थक होने के लिए, मुझे एक वास्तविक डेटासेट पर परिणाम दिखाने की जरूरत थी, जैसे कि सेलिब्रिटी चित्र, इसलिए मैंने अपने कार्यालय से एक सिमुलेशन शुरू किया, और फिर घर पर बाइक चला दी।

मैंने कई बार अपने आप से कहा कि मैं शनिवार और रविवार को काम नहीं करूंगा ... लेकिन जब कठिन हो जाता है, तो मैं तुरंत सप्ताहांत पर प्रयोगशाला में वापस जाने के लिए तुरंत डिफ़ॉल्ट हो जाता हूं।

जनवरी 7, 2019: हमारे GPU क्लस्टर का समस्या निवारण, बैबेज 3

अगली सुबह, मैं यह पता लगाने के लिए वापस आया कि मेरे सिमुलेशन ने महान परिणाम उत्पन्न नहीं किए हैं - वास्तव में, यह बिल्कुल भी परिणाम नहीं आया है! जब मैंने सिमुलेशन शुरू किया था, उसके तुरंत बाद, लैब क्लस्टर जिसे हम अपने सिमुलेशन चलाने के लिए उपयोग करते हैं, बैबेज 3 दुर्घटनाग्रस्त हो गया था, जिससे मुझे स्टैक ट्रेस पर घूरना पड़ा:

रिसोर्सएक्सपर्टडियर: ओओएम जब टेंसर आवंटित करते हैं

आम तौर पर, मैं एक जीपीयू पर कई प्रशिक्षण स्क्रिप्ट चलाते समय इस त्रुटि को देखूंगा - यह शिकायत का GPU तरीका था कि मैं इसकी मेमोरी में बहुत अधिक डेटा खिला रहा था, लेकिन मुझे पता था कि उस दिन ऐसा नहीं होना चाहिए था एक प्रबंधनीय डेटासेट आकार के साथ एक एकल स्क्रिप्ट चला रहा था। मैंने अपना कोड डिबग करने में, विभिन्न लिपियों को फिर से शुरू करने में, और फिर अंततः पूरी मशीन, लेकिन कोई भाग्य नहीं बिताया।

मैं कुछ चिढ़ गया था, क्योंकि मेरे पास डिबग करने के लिए एक लंबी निरंतर अवधि नहीं थी, क्योंकि यह तिमाही की शुरुआत भी थी, और मैं कुछ अलग वर्गों की खरीदारी कर रहा था। मैंने कक्षाओं में और बाहर दिन बिताया, जबकि बैबेज को डिबग करने के बीच में। 3. शाम को फिर से शुरू होने के बाद, क्लस्टर ने अनायास फिर से काम करना शुरू कर दिया। मैंने आशा की और सर्वश्रेष्ठ के लिए प्रार्थना की, सिमुलेशन को फिर से शुरू किया, स्क्रिप्ट की प्रगति पर नजर रखने के लिए आधे घंटे इंतजार किया। जब यह गर्भपात के किसी भी लक्षण के बिना चल रहा था, तो मैं घर चला गया।

8 जनवरी: मेरे सलाहकार, रिचर्ड के साथ बैठक

अगली सुबह तक, मैं अंत में सेलिब्रिटी छवि डेटासेट पर विपरीत VAE वास्तुकला का उपयोग करते हुए कुछ परिणाम मिला। जेनेरेटिव मॉडल के साथ, परिणामों का मूल्यांकन करना मुश्किल हो सकता है, क्योंकि छवि गुणवत्ता और अव्यक्त सुविधा का चयन व्यक्तिपरक हो सकता है। यह मुझे प्रतीत हुआ कि परिणाम इतने महान नहीं थे, लेकिन मानक VAE पर एक निश्चित सुधार थे। मैंने जल्दी से स्लाइड के एक सेट में आंकड़े कॉपी किए और चिपकाए ताकि मैं उन्हें अपने सलाहकार रिचर्ड के सामने पेश करने के लिए तैयार करूं।

रिचर्ड ने रुचि के साथ मेरे आंकड़ों को बारीकी से देखा, इस बारे में सवाल पूछा कि मैंने नुकसान को कैसे परिभाषित किया। थोड़ी देर के बाद, उन्होंने मुझसे पूछा कि क्या प्रमुख अव्यक्त चर (जो मैं निकालने की कोशिश कर रहा था) और प्रासंगिक अव्यक्त चर (जो मैं स्पष्ट रूप से सीखने की कोशिश कर रहा था) के बीच स्वतंत्रता को प्रोत्साहित करके परिणामों में सुधार करना संभव हो सकता है। मुझे लगा कि यह एक महान विचार था, और मैं विशेष रूप से उत्साहित था क्योंकि मैंने हाल ही में एक पेपर पढ़ा था जिसने अव्यक्त सुविधाओं के बीच स्वतंत्रता को प्रोत्साहित करने के लिए एक विधि का प्रस्ताव दिया था। मैं अपने विपरीत VAE के लिए एक समान विधि का उपयोग कर सकता था, मैंने सोचा।

रिचर्ड ने मुझे विपरीत VAE पेपर शुरू करने के लिए हरी बत्ती दी। उन्होंने कहा कि कुछ और प्रयोगों के साथ, मेरे पास एक पेपर के लिए पर्याप्त परिणाम होने चाहिए, और अगर मैं उन्हें आईसीएमएल की समय सीमा के लिए समय दे सकता था, तो यह पेपर भेजने के लिए एक अच्छी जगह होगी।

उस समय, मैं एक प्रतिभाशाली अंडरग्रेजुएट छात्र, मलीह का भी उल्लेख कर रहा था, जो तुर्की में रहता था। मेलिहा एक दोस्त का दोस्त था, जो पिछले साल सितंबर में संयुक्त राज्य अमेरिका में पीएचडी कार्यक्रमों में आवेदन करने के लिए सलाह लेने के लिए पहुंचा था। Melih एक शानदार स्नातक छात्र थे, जिन्होंने अंतर्राष्ट्रीय कंप्यूटर विज्ञान प्रतियोगिताओं में भाग लिया था। लेकिन जब मैंने उनसे अनुसंधान के अनुभव के बारे में पूछा, तो उन्होंने स्वीकार किया कि उनके पास वास्तव में कोई भी नहीं है। चूंकि प्रतिस्पर्धी पीएचडी कार्यक्रमों में आवेदन करते समय अनुसंधान अनुभव सबसे महत्वपूर्ण कारक है, इसलिए मैंने उनसे कहा था कि उन्हें आवेदन की समय सीमा से पहले कुछ शोध करना चाहिए। फिर उन्होंने दुस्साहस से मुझसे पूछा कि क्या मैं उन्हें सलाह दे सकता हूं, और इसलिए मैं सहमत हो गया, और मैंने अनचाहे फ़ीचर चयन से संबंधित परियोजना पर सहयोग का सुझाव दिया। यह निर्धारित करने के लिए विचार किया गया था कि क्या विशेषताएं (एक छवि में पिक्सेल, एक ट्रांसक्रिप्टोमिक्स डेटासेट में जीन, आदि) सबसे महत्वपूर्ण थीं, बनाम जो अनावश्यक थे। विशेष रूप से जैविक डेटासेट में, सुविधाओं को अक्सर सहसंबद्ध किया जाता है, ताकि यह अक्सर संभव हो सके

जीन अभिव्यक्ति परिपक्व अक्सर सहसंबंध के उच्च डिग्री दिखाते हैं। क्या हमें वास्तव में प्रत्येक जीन को मापने की आवश्यकता है, या क्या हम केवल कुछ को माप सकते हैं (प्रायोगिक लागत और समय की बचत) और फिर बाकी को लागू करें?

स्वतंत्र विशेषताओं के एक छोटे सबसेट का चयन करें और उच्च सटीकता के साथ शेष का पुनर्निर्माण करें। यदि हम इसे व्यवस्थित तरीके से कर सकते हैं, तो यह प्रयोगात्मक लागतों और समय की बचत करेगा, क्योंकि सभी जीनों को मापना नहीं होगा - उन्हें मापा जीनों के एक छोटे से उपसमुच्चय से केवल अनुमान लगाया जा सकता है (या लगाया जा सकता है)। मैंने फीचर चयन पर साहित्य की समीक्षा की थी, और अधिकांश तकनीकों को बहुत पुराना पाया, और इसलिए मैंने गहन सीखने के आधार पर एक फीचर चयन तकनीक का सुझाव दिया, जिसे हमने Melih को "कंकरीट ऑटोकेन्डर" कहा।

हमारा सहयोग अच्छा चल रहा था। मुझे Melih की बहुत पूर्ति करने का अनुभव मिला और मैंने विशेष रूप से उनके परिणामों की समीक्षा करने और उन्हें नए दृष्टिकोणों के लिए सुझाव देने का आनंद लिया। हमने हाल ही में कुछ सकारात्मक परिणाम प्राप्त किए हैं, और मेरे सलाहकार रिचर्ड ने सुझाव दिया कि यदि आईसीएमएल की समय सीमा के अनुसार कुछ और परिणाम प्राप्त करना संभव होगा, तो एक दूसरा पेपर लिखना और आईसीएमएल को भी प्रस्तुत करना अच्छा होगा। मुझे एहसास हुआ कि मुझे अगले दो हफ्तों में कितना काम करना होगा।

9 जनवरी: पेपर 1 के लिए आंकड़े

एक सम्मेलन में प्रस्तुत करने के लिए एक पेपर तैयार करते समय मैं जो पहली चीज करता हूं वह आंकड़े तैयार करना है। आंकड़े उस संरचना को प्रदान करते हैं जिसके चारों ओर मैं बाकी कागज लिखता हूं। इसलिए बुधवार को, रिचर्ड से मिलने के अगले दिन, मैंने अपने विपरीत VAE पेपर के लिए आंकड़े तैयार करना शुरू कर दिया। ज़ाचरी लिपटन से जो एक सलाह मैंने पढ़ी है, उसका एक बड़ा हिस्सा यह है कि "एक पाठक को केवल आंकड़ों को देखने से, या आंकड़ों को देखे बिना आपके पेपर को समझना चाहिए।"

विरोधाभासी VAE पेपर के लिए, मैं अभी भी बेहतर परिणाम प्राप्त करने पर काम कर रहा था, इसलिए परिणामों का एक आंकड़ा बनाने के बजाय, मैंने एक आंकड़े के साथ शुरुआत की, जो कि विपरीत विज्ञान VAE की कार्यप्रणाली, विशेष रूप से वास्तुकला का वर्णन करता है। आकृति नीचे बाईं ओर कुछ दिख रही थी:

चित्रा विपरीत VAE कागज की पद्धति दिखा रहा है। प्रारंभिक संस्करण बाईं ओर दिखाया गया है, जबकि अंतिम संस्करण, जो कागज में दिखाई दिया, दाईं ओर दिखाया गया है।

जब मैंने आकृति बनाई थी, तो मुझे चित्र को परिपूर्ण बनाने के लिए बहुत अधिक चिंता करने की ज़रूरत नहीं थी। यह आंकड़ा का एक प्रारंभिक संस्करण था, जो ज्यादातर एक प्लेसहोल्डर के रूप में सेवा करता था, जो मेरे सलाहकार पर एक नज़र डाल सकते थे और मुझे एक महत्वपूर्ण प्रतिक्रिया देने के लिए उपयोग कर सकते थे। मैंने अभी भी संभवतः अनावश्यक रूप से लंबे समय तक आंकड़ा पर खर्च किया है - लेकिन मैं व्यक्तिगत रूप से आंकड़े बनाने का आनंद लेता हूं (मुझे नहीं पता कि सभी स्नातक छात्र क्या करते हैं), और जब मैं चित्र बनाना शुरू करता हूं (आमतौर पर पावरपॉइंट में, लेकिन कभी-कभी लाटेक में टिकर पैकेज का उपयोग करके), मैं वास्तव में इसमें शामिल हूं। मैंने प्रारंभिक संस्करण के रूप में बाईं ओर शीर्ष पर आकृति को डिज़ाइन किया, और अंतिम आकृति के लिए शीर्ष दाईं ओर जो कागज में दिखाई दिया। मैंने दूसरे पेपर के लिए एक आकृति भी बनाई जिसमें कंक्रीट ऑटोकेनोडर की वास्तुकला को दिखाया गया था, जिस पर मुझे विशेष रूप से गर्व था, क्योंकि यह पूरी तरह से LaTeX में था:

कंक्रीट ऑटोकेनोडर की सरलीकृत वास्तुकला। आंकड़ा पूरी तरह से LaTeX से उत्पन्न होता है।
"एक पाठक को केवल आंकड़ों को देखने से, या आंकड़ों को देखने के बिना अपने पेपर को समझना चाहिए" - ज़ाचरी लिपटन

10 जनवरी: पेपर 2 पर एक अंडरग्रेजुएट छात्र के साथ काम करना

जब मैंने कंक्रीट ऑटोकेनोडर की वास्तुकला दिखाते हुए अपना आंकड़ा बनाया, तो मैंने उसे मेलिहा में भेजा, एक संदेश के साथ प्रेरणा के रूप में कहा कि हमें कंक्रीट ऑटोकेनोडर्स के लिए आंकड़े उत्पन्न करना शुरू करना चाहिए। मैं भी कुछ सलाह के साथ गुजरा (यह सलाह के साथ पारित करने के लिए संतुष्टिदायक है, मैंने सीखा है!) जो मैंने अपने सलाहकार से सुना था: एक पेपर का पहला आंकड़ा एक ग्राफिक होना चाहिए जो एक प्रसिद्ध पर विधि के परिणामों को दर्शाता है डेटासेट विधि की शक्ति का प्रदर्शन करने के लिए - और पूरे पेपर को पढ़ने के लिए पाठक को लुभाने के लिए, क्योंकि बहुत से पाठक केवल एक पेपर के पहले कुछ पन्नों को पढ़ते हैं या पहले आंकड़े तक नीचे जाते हैं।

हमने पहले आंकड़े के रूप में फैसला किया, एमएनआईएसटी हस्तलिखित अंकों के डेटासेट पर कंक्रीट ऑटोकेनर के उपयोग के परिणाम दिखाने के लिए। मशीन लर्निंग समुदाय में डेटासेट अच्छी तरह से जाना जाता है। यद्यपि यह वास्तव में डेटासेट पर फीचर चयन करने के लिए समझ में नहीं आता है, हमें लगा कि अगर हम प्रत्येक छवि में कुल 784 पिक्सल में से 10 या 20 सबसे महत्वपूर्ण "महत्वपूर्ण" पिक्सल को फिर से चित्रित कर सकते हैं, साथ ही साथ ये पिक्सेल अकेले। अनुमति देगा, जो तुरंत विधि की शक्ति का संचार करेगा। हमने एक छवि बनाई जो इस तरह दिखाई देती है:

(ए) 20 सबसे महत्वपूर्ण पिक्सल (कुल 784 में से) चित्र दिखाते हैं (बी) एमएनआईएसटी डेटासेट से नमूना छवियां (सी) पिछले पैनल में प्रत्येक नमूना छवि से चुने गए 20 पिक्सल दिखाते हैं। (d) केवल 20 चयनित पिक्सेल का उपयोग करके पुनर्निर्मित छवियां, जो मूल छवियों को काफी अच्छी तरह से अनुमानित करती हैं। इस आंकड़े को बनाने और मेरी टिप्पणियों से निराश न होने के लिए आपको Melih धन्यवाद!

मुझे एहसास हुआ कि मलीह के साथ मेरे संवाद के दौरान, मैंने जितना सोचा था, उससे कहीं अधिक मैं एक माइक्रोमैनजर हूं। बौद्धिक स्तर पर, मुझे पता था कि मलीह के विकास और मेरी खुद की पवित्रता के लिए बेहतर होगा यदि मैं निर्दिष्ट नहीं करता हूं, नीचे लिटलिस्ट शैलीगत विस्तार से, आंकड़े कैसे दिखना चाहिए, लेकिन मैं खुद को मदद नहीं कर सकता जब मेलिह भेजेगा मुझे एक अलग रंग योजना या आंकड़ों की व्यवस्था पर टिप्पणी करने और सुझाव देने के लिए ग्राफिक का एक संस्करण है। ऊपर दिए गए आंकड़े मलीह और मेरे हिस्से के बहुत आगे-पीछे होने के बाद उत्पन्न हुए थे।

11 जनवरी: जर्नल क्लब

यह शुक्रवार फिर से था, जिस दिन हमारी लैब ने हमारे साप्ताहिक जर्नल क्लब को रखा था। मैं वास्तव में जर्नल क्लब का आनंद लेता हूं, क्योंकि यह मुझे सप्ताह में कम से कम एक पेपर पढ़ने के लिए मजबूर करता है: पेपर जो जर्नल क्लब के दौरान चर्चा का फोकस है। सामान्य तौर पर, पीएचडी छात्र के रूप में, क्षेत्र में हो रहे शोध को जारी रखना महत्वपूर्ण है, लेकिन मैं अक्सर कागजात पढ़ना भूल जाता हूं।

इसका एक हिस्सा हर दिन पैदा होने वाले कागज़ों की संख्या के कारण होता है। ArXiv पर, कागजात के लिए प्री-प्रिंट सर्वर, प्रत्येक दिन लगभग 100 पेपर जारी किए जाते हैं, और इसलिए उन सभी को रखना असंभव है। हमारी प्रयोगशाला में, हमारे पास एक ऐसी प्रणाली है जिसमें प्रत्येक व्यक्ति, सप्ताह के एक दिन के लिए, उस दिन के लिए सभी एमएल पत्रों के सार को पढ़ता है, और उन लोगों को साझा करता है जो समूह के बाकी हिस्सों के लिए प्रासंगिक हैं। फिर भी, इसे बनाए रखना कठिन है, इसलिए आपको पेपर पढ़ने के लिए बाध्य करने के लिए एक जर्नल क्लब का होना उपयोगी है।

हमारे जर्नल क्लब में, हमने एक पेपर पर चर्चा की, जो मुझे बहुत दिलचस्प लगा, "आर्डरेड न्यूरॉन्स: इंटीग्रेटिंग ट्री स्ट्रक्चर्स इन रिक्रिएटेड न्यूरल नेटवर्क्स"। कागज ने नेटवर्थ के विभिन्न स्तरों को सीखने के लिए नेटवर्क को प्रोत्साहित करने के लिए एक मामूली तरीके से व्यापक रूप से उपयोग किए जाने वाले एलएसटीएम आर्किटेक्चर को संशोधित करने का प्रस्ताव दिया। जबकि जेनेरिक LSTM आर्किटेक्चर ने तंत्रिका नेटवर्क को अनुक्रमिक डेटा में मनमानी प्रकार की निर्भरता सीखने की अनुमति दी, पेपर ने एक साधारण ट्विस्ट का प्रस्ताव रखा, जो LSTM पर निर्भरता के पदानुक्रम को सीखने के लिए आवश्यक था। यदि बाहरी निर्भरता समाप्त हो जाती है, तो भीतर वाले भी समाप्त हो जाएंगे। इस ट्वीक को बोलने और लिखित भाषा की सामान्य पदानुक्रमित विशेषता को मॉडल करने के लिए डिज़ाइन किया गया था (उदाहरण के लिए, जब एक पूर्वनिर्मित वाक्यांश समाप्त होता है, तो यह आमतौर पर संकेत देता है कि एक बड़ा खंड समाप्त हो गया है)।

मैंने कागज को दिलचस्प पाया, क्योंकि इसने किसी भी प्रकार की फीचर इंजीनियरिंग को कम करते हुए पूर्व डोमेन जानकारी (प्राकृतिक भाषा होने के कारण डोमेन) को एनकोड करने का एक सरल तरीका दिया। विशेष रूप से प्रभावशाली यह था कि लेखक वापस चले गए और पाया कि सेल राज्यों द्वारा सीखे गए निर्भरता के विभिन्न स्तर पेड़ की संरचना के अनुरूप हैं जो वास्तव में अंग्रेजी भाषा में मौजूद हैं, जैसा कि उनके पेपर से योजनाबद्ध रूप में चित्रित किया गया है।

आदेशित न्यूरॉन्स से अनुकूलित चित्र: आवर्तक तंत्रिका नेटवर्क में ट्री संरचनाओं को एकीकृत करना

मैं व्यक्तिगत रूप से इन पत्रों को सरल, उपन्यास विचारों के साथ पढ़ता हूं - कभी-कभी, खुद शोध करने से ज्यादा!

12-13 जनवरी: सप्ताहांत के माध्यम से काम नहीं कर रहा

दृढ़ संकल्प के साथ, मैंने फिर से अपने आप से कहा कि मैं सप्ताहांत में शोध नहीं करूंगा। इस सप्ताह के अंत में, मैं ज्यादातर इसे बंद करने में सक्षम था। शनिवार को, मैं अपने स्नातक विश्वविद्यालय से अपने कुछ दोस्तों के साथ पैदल यात्रा पर गया था जो सिलिकॉन वैली में स्थानांतरित हो गए थे। रविवार को, मैं अरबी का अध्ययन करने के लिए Fremont गया, क्योंकि मैं अरबी भाषा सीखने के लिए एक व्यक्ति-व्यक्ति साप्ताहिक क्लास ले रहा था।

14 जनवरी: टीचिंग माईसेल्फ द डेंसिटी-रेशियो ट्रिक

मैं असहमति के सवाल पर लौट आया, जिसे मेरे सलाहकार रिचर्ड ने हमारी पिछली बैठक में उठाया था। असहमति के लिए दो लोकप्रिय दृष्टिकोण थे जो मैंने साहित्य में पढ़े थे: वह तथ्य का और वह टीसीआरई का। प्रारंभ में, मैंने TCVAE का उपयोग करने की योजना बनाई, क्योंकि FactorVAE को एक अलग विवेकशील तंत्रिका नेटवर्क की आवश्यकता थी, लेकिन TCVAE पेपर में एल्गोरिथ्म को देखने के बाद, मुझे यह समझना मुश्किल था कि वास्तव में लेखक क्या कर रहे थे। मुझे यह भी नहीं लगता कि उनका दृष्टिकोण मेरी सेटिंग में अच्छा काम करेगा; वास्तव में, FactorVAE पेपर के लेखकों ने दावा किया कि उन्होंने मूल सेटिंग में TCVAE एल्गोरिथम की कोशिश की जिसके लिए यह प्रस्तावित किया गया था, लेकिन अच्छे परिणामों को दोहरा नहीं सका। मुझे यकीन नहीं था कि मैं एक प्रतिद्वंद्वी पेपर के दावों पर विश्वास कर सकता हूं, या क्या यह अकादमिक राजनीति का मामला है, लेकिन क्योंकि FactorVAE लेखकों ने अपनी विधि को अधिक स्पष्ट रूप से वर्णित किया था, मुझे लगा कि मुझे पहले कोशिश करनी चाहिए।

FactorVAE तकनीक का उपयोग करने के लिए, मुझे "घनत्व-अनुपात चाल" नामक कुछ समझने की आवश्यकता है। आश्चर्य की बात है कि मैं एक अच्छा वैज्ञानिक लेख नहीं बता सकता हूं जो चाल समझाता है, लेकिन मैं शाकिर के लिए एक बहुत ही पठनीय ब्लॉग पोस्ट खोजने के लिए भाग्यशाली था। मोहम्मद, जिन्होंने स्पष्ट भाषा में चाल बताई और LaTeX गणित को स्पष्ट किया (स्पष्टता से वास्तव में सभी फर्क पड़ता है!)। मैंने पोस्ट के माध्यम से ध्यान से पढ़ा, खुद को गणित सिखाने के लिए यह समझने के लिए कि विधि कैसे काम करती है।

मैं वास्तव में मशीन सीखने के तरीकों की बेहतर समझ पाने के लिए गणित का काम करना पसंद करता हूं। वास्तव में, मौजूदा तरीकों के पीछे गणित का काम करना और सरल प्रोटोटाइप को कोड करना आमतौर पर मेरे लिए अपने स्वयं के प्रयोगात्मक तरीकों के साथ बड़े पैमाने पर प्रयोग करने की तुलना में अधिक दिलचस्प है। काश मेरे पास पेपर पढ़ने, गणित करने और पहले सिद्धांतों से चीजों को समझने के लिए अधिक समय होता। लेकिन मशीन लर्निंग अनुसंधान की तेज़ गति आमतौर पर आपको समय की विलासिता नहीं देती है।

15 जनवरी: रिचर्ड के सामने पेश, फिर से

और फिर यह मंगलवार था, और रिचर्ड के साथ मेरी साप्ताहिक बैठक उस दोपहर थी। मैंने घनत्व-अनुपात चाल का उपयोग करके असहमति के साथ एक विपरीत VAE लागू किया, और अपने प्रयोगों के परिणामों को इकट्ठा किया, और उन्हें स्लाइड की एक श्रृंखला में रखा। मैंने आंकड़ों पर ध्यान दिया - वे बहुत अच्छे लग रहे थे, वास्तव में, मैंने खुद को सोचा था। यहाँ एक उदाहरण था, जहाँ मैंने टोपी के साथ मशहूर हस्तियों पर एक विपरीत VAE प्रशिक्षित किया था, बिना टोपी के मशहूर हस्तियों की पृष्ठभूमि के खिलाफ विपरीत:

यहां, हेट (लक्ष्य) और बिना हैट (पृष्ठभूमि) के साथ सेलिब्रिटी छवियों पर प्रशिक्षित एक विपरीत VAE का उपयोग एक समय में एक आयाम को बदलकर, नई सेलिब्रिटी छवियों को उत्पन्न करने के लिए किया जाता है। ऊर्ध्वाधर आयाम टोपी के रंग को शामिल करता है, जबकि क्षैतिज आयाम टोपी के आकार को शामिल करता है। चूँकि हम केवल 2 अव्यक्त चरों की अनुमति देते हैं, इसलिए उत्पन्न चित्र यथार्थवादी नहीं हैं।

एक मानक VAE ने रुचि के अव्यक्त विशेषताओं के रूप में त्वचा का रंग या पृष्ठभूमि रंग सीखा होगा, लेकिन विपरीत VAE वास्तव में टोपी से संबंधित अव्यक्त विशेषताएं, जैसे कि टोपी का रंग और टोपी के आकार को सीखना था।

खुशी के साथ, रिचर्ड परिणामों के साथ भी संतुष्ट था, और उसने उल्लेख किया कि जब मैं एक मसौदा तैयार किया था, तो वह कागज को देखकर खुश होगा। आईसीएमएल की समय सीमा खत्म होने के एक हफ्ते के भीतर, मैं दोगुना हो गया और लिखना शुरू कर दिया।

और वह जनवरी के पहले दो सप्ताह थे! मुझे आशा है कि आपको पीएचडी के छात्र के रूप में मशीन लर्निंग रिसर्च करना पसंद है। मैं यहाँ पहले भाग को समाप्त करूँगा, क्योंकि मैं पहले ही काफी लंबे समय से जा चुका हूँ। लेकिन अगर आप यह जानना चाहते हैं कि मेरे बाकी महीने की तरह क्या था, तो बाकी के कदमों के अलावा, जिसमें मैंने पेपर लिखना शुरू किया था, मुझे टिप्पणियों में बताएं और मुझे भाग 2 लिखने में खुशी होगी!

लेखक का ध्यान दें: घटनाओं को सामंजस्य के लिए थोड़ा संपादित और पुनर्व्यवस्थित किया गया है। लोगों और कंप्यूटिंग समूहों के नाम संशोधित किए गए हैं। कैविएट: ये अनुभव केवल मेरे अपने हैं, और अन्य पीएचडी छात्रों के अनुभवों का प्रतिनिधित्व नहीं कर सकते हैं, विशेष रूप से बेहतर कार्य-जीवन संतुलन वाले लोग!

यह लेख मेरे प्रिय मित्र अली अब्दुल्ला के एक प्रश्न से प्रेरित था।