क्या विनिर्माण और तंत्रिका विज्ञान आम है? डाटा साइंटिस्ट बताते हैं

अब वह समय है जब आधुनिक मशीन लर्निंग कई व्यवसायों को बदल रही है (इस रिपोर्ट को एमआईटी स्लोन मैनेजमेंट रिव्यू से देखें)।
दत्तास्वती में, हम एक कृत्रिम बुद्धिमत्ता बढ़ाने वाले विनिर्माण की दिशा में काम करके और इंजीनियरिंग कार्यबल पर अपनी निर्भरता को कम करके इस परिवर्तन में योगदान दे रहे हैं। अंत में विनिर्माण के लिए कुछ पाठों के साथ न्यूरोसाइंस (मेरे पीएचडी का विषय) के लिए डेटा साइंस और मशीन लर्निंग के आवेदन के बारे में कहानी इस प्रकार है। पढ़ते रहिये।

कहानी संक्षिप्त में

मस्तिष्क में न्यूरॉन्स तेजी से सक्रियण घटनाओं के अनुक्रम के साथ संवाद करते हैं जिन्हें स्पाइक्स कहा जाता है। Normcole Normale Supérieure (ENS), इवान लाज़रेविच और बोरिस गुटकिन में न्यूरल थ्योरी के समूह में मेरे सह-लेखकों के साथ, हमें आश्चर्य हुआ कि एकल न्यूरॉन्स के इन स्पाइक अनुक्रमों (स्पाइकिंग कोड) को वर्गीकृत करने की समस्या को शुद्ध रूप में नहीं जाना गया था। डेटा विज्ञान समस्या। अब तक नहीं।

हमारे हालिया पेपर में, हमने विभिन्न वर्गीकरण समस्याओं के लिए एकल न्यूरॉन गतिविधि डेटा खनन के कई दृष्टिकोणों का बीड़ा उठाया है।

पृष्ठभूमि

निष्पक्ष होने के लिए, डेटा विज्ञान और मशीन सीखने के तरीके तंत्रिका विज्ञान के लिए कोई अजनबी नहीं हैं। वे पूरे मस्तिष्क के स्तर की रिकॉर्डिंग (जैसे fMRI, ईईजी, एमईजी डेटा) के विश्लेषण के लिए सक्रिय रूप से उपयोग किए जाते हैं। इस प्रकार का डेटा सुर्खियों में था क्योंकि तंत्रिका आबादी की समन्वित गतिविधि को मस्तिष्क के वैश्विक राज्यों को ऑर्केस्ट्रेट करने के लिए माना जाता है, उदाहरण के लिए, सीखने के विभिन्न चरण, नींद के चरण, जागते हुए आराम करने वाले राज्य, रोग-प्रेरित बनाम सामान्य अवस्था। हालांकि, एक एकल न्यूरॉन की गतिविधि को कभी भी इन वैश्विक राज्यों के भविष्यवक्ता के रूप में नहीं माना गया था।

एकल मस्तिष्क गतिविधि पर आधारित वैश्विक मस्तिष्क राज्यों का वर्गीकरण एक महत्वपूर्ण समस्या क्यों है? कई कारण: i) यदि हल किया गया है, तो यह इन वर्गीकरण कार्यों (एकल न्यूरॉन डेटा बनाम जनसंख्या डेटा) के लिए आवश्यक डेटा की मात्रा को काफी कम कर सकता है, ii) यह व्यक्तिगत न्यूरॉन स्पाइकिंग कोड में निहित भविष्य कहनेवाला जानकारी की मात्रा को निर्धारित करने की अनुमति देता है।

मस्तिष्क राज्य वर्गीकरण के लिए एकल न्यूरॉन गतिविधि डिकोडिंग की समस्या के लिए हमारा समाधान इस प्रकार है।

एक आधारभूत दृष्टिकोण

हमारे आधारभूत दृष्टिकोण के लिए, हमने सबसे पहले न्यूरोनल स्पाइकिंग एक्टिविटी टाइम-सीरीज़ के कई कुशल अभ्यावेदन विकसित किए और के-निकटतम पड़ोसियों (केएनएन) के तरीकों का इस्तेमाल किया, जिसमें दूरी मीट्रिक्स भी शामिल थे, जिनमें न्यूरोसाइंटिकल डेटा विश्लेषण के लिए मानक नहीं थे।
उनकी गतिविधि के आधार पर न्यूरॉन प्रकारों के वर्गीकरण जैसी कुछ समस्याओं के लिए, हमने पाया कि न्यूरोसाइंस में कभी-कभी उपयोग किए जाने वाले स्पाइक अनुक्रम समानता उपायों को गैर-तुच्छ मेट्रिक्स द्वारा आउटपरफॉर्म किया गया था जिसे हमने कोलमोगोरोव-स्मिरनोव या वासेरस्टीन दूरी के रूप में लागू किया था। आप https://statweb.stanford.edu/~souravc/Lecture2.pdf पर इस प्रकार की दूरी के मैट्रिक्स के बारे में अधिक जान सकते हैं।

क्या होगा अगर भोली आधारभूत विधियों के बजाय हम अधिक उन्नत लोगों का उपयोग करें?

शास्त्रीय डेटा विश्लेषण विधियों पर आधुनिक मशीन सीखने के दृष्टिकोण का महान लाभ उनके अधिक लचीलेपन में है: हम मैनुअल सुविधा / मीट्रिक इंजीनियरिंग को बहुत कम कर सकते हैं (यदि समाप्त नहीं कर सकते हैं) और मानव पूर्वाग्रह से छुटकारा पा सकते हैं।

इसलिए हमने न्यूरोनल स्पाइकिंग टाइम-सीरीज़ से कई प्रकार की विशेषताओं (गुणों) को एक स्वचालित तरीके से निकाला और विभिन्न मशीन लर्निंग मॉडल का उपयोग किया, जिनमें से प्रत्येक विभिन्न प्रकार के इनपुट-आउटपुट निर्भरता सीखने में सक्षम है और विभिन्न प्रकार की जानकारी निकालता है। हमने केएनएन, लॉजिस्टिक रिग्रेशन को विभिन्न प्रकार के नियमितीकरण, रैंडम फ़ॉरेस्ट और अत्यधिक रैंडमाइज़्ड ट्रीज़, ग्रैडिएस्ट बूस्टेड डिसीजन ट्रीज़ (GBM), SAX-VSM, BOSSVS के साथ आज़माया, और अंत में, हमने सबसे बेहतर आउट-आउट पाने के लिए मॉडल एनसेंबलिंग (स्टैकिंग और ब्लेंडिंग) का इस्तेमाल किया। विभिन्न मॉडलों का एक गुच्छा।

हमने पाया कि समकालीन मशीन लर्निंग एप्रोच जैसे ग्रेडिएंट बूस्टेड डिसीजन ट्रीज़ (एक्सगबॉस्ट इम्प्लीमेंटेशन) ने हमारे बेसलाइन को बेहतर बनाने के लिए बहुत सारी विशेषताओं पर प्रशिक्षण दिया। इसके अलावा, विभिन्न तरीकों को मिलाकर, हम इन परिणामों को और अधिक मजबूत बनाने में सक्षम थे। हम वर्तमान में अत्याधुनिक डीप लर्निंग अप्रोच को लागू कर रहे हैं और एकल न्यूरॉन्स की गतिविधि में निहित पूर्वानुमान संबंधी जानकारी को और अधिक बढ़ा रहे हैं।

निष्कर्ष

संक्षेप में, तंत्रिका कोड के लिए क्या अच्छा है विभिन्न प्रणालियों की एक श्रृंखला के लिए अच्छा है, उदाहरण के लिए जटिल औद्योगिक प्रक्रियाओं के लिए। डेटास्वाती में हमारे दिन-प्रतिदिन के काम में, हम एक ही पैटर्न समय और समय को फिर से देखते हैं: समय श्रृंखला डेटा विश्लेषण के लिए शास्त्रीय भोले दृष्टिकोण अक्सर अत्याधुनिक मशीन सीखने से बेहतर प्रदर्शन करते हैं, जो जटिल अस्थायी पैटर्न को प्रभावी ढंग से पकड़ते हैं। आँकड़े।

पूरी कहानी पढ़ने के लिए कृपया यहाँ क्लिक करें।