एआई डिस्टिलरी (भाग 1): एआई अनुसंधान के बारे में एक पक्षी की नजर

एआई के माध्यम से देखने के लिए विभिन्न लेंस; प्रेरणा और हमारे वेब एप्लिकेशन से परिचय

नोट: यदि आप अपने घर में रोबोट robots चाहते हैं, और यह देखना चाहते हैं कि बाद में जल्द से जल्द हो, तो कृपया हमारा बहुत छोटा सर्वेक्षण करें। आपकी प्रतिक्रियाएं हमारे सिम्युलेटेड पर्यावरण अनुसंधान और रोबोटिक्स परियोजनाओं को निर्देशित करने में मदद करती हैं sim

अपने समय के 3 मिनट दें: https://forms.gle/hPiP1p3sJ734Hzk19
बहुत धन्यवाद!

एमटैंक में, हम दो लक्ष्यों की ओर काम करते हैं। (1) एआई के भीतर मॉडल और डिस्टिल ज्ञान। (२) वास्तव में बुद्धिमान मशीनें बनाने की दिशा में प्रगति करें। इन प्रयासों के एक हिस्से के रूप में हम लोगों को आनंद लेने और सीखने के लिए अपने काम के बारे में टुकड़े जारी करते हैं। यदि आपको हमारा काम पसंद आता है, तो कृपया अपने गधे का पालन, साझा और ताली बजाकर अपना समर्थन दिखाएं। अग्रिम में धन्यवाद!

  • भाग 1: एआई अनुसंधान के बारे में एक पक्षी की नजर
  • भाग 2: एंबेडिंग द्वारा डिस्टिलिंग

यह क्या है और आपने इसे क्यों किया?

एआई डिस्टिलरी प्रोजेक्ट की हमारी पहली किस्त में आपका स्वागत है, जहाँ हमारी MTank टीम, विश्व स्तर पर AI अनुसंधान की मात्रा से निराश होकर, रोज़ाना माउंट होने वाले अपठित पत्रों के हमारे ढेर का हल निकालने का प्रयास करती है। हमारे पिछले विज़न ब्लॉग में, हमने चंचलतापूर्वक, और सटीक रूप से, वैश्विक एआई शोध प्रकाशनों की मात्रा को एक फायरहोस के रूप में वर्णित किया - अविश्वसनीय रूप से उच्च मात्रा में, लेकिन एक माध्यम जो अपनी प्यास को ठीक से बुझाने से रोकता है। इसलिए हमने एआई और विभिन्न संबंधित क्षेत्रों के बारे में ताज़ा जानकारी देने के लिए एक्वाडक्ट-इन पर अपना हाथ आजमाने का फैसला किया।

तुम क्यों पूछते हो? खैर, सबसे पहले, हमने सोचा कि यह एक दिलचस्प समस्या थी। दूसरी बात, हमने एआई उप-उपक्षेत्रों के सबसे गूढ़ क्षेत्र में भी प्रगति के साथ बने रहने में असमर्थता जताते हुए शोधकर्ताओं की यातनाओं को सुना (और मेल किया)। अक्सर, एक शोधकर्ता को पढ़ने, कोडिंग, व्यवस्थापक, शिक्षण, आदि के बीच अपना समय विभाजित करने की आवश्यकता होती है और कभी-कभी, जब किसी को समय सीमा से पहले एक पेपर लिखने की आवश्यकता होती है, तो लेखक यह स्वीकार करते हैं कि वे संभवतः महीनों तक कोई नया पेपर नहीं पढ़ते हैं एक समय जब वे अपने सबमिशन की तैयारी करते हैं।

काफी हद तक, वैज्ञानिक ज्ञान एक मुख्य प्रारूप में प्रसारित होता है: वैज्ञानिक कागजात। हाल ही में, सार्वजनिक ऑनलाइन रिपॉजिटरी जो प्रशस्ति पत्र की अनुमति देते हैं, जैसे कि ArXiv, वैज्ञानिक सामग्री को तेजी से प्रकाशित करने के लिए एक व्यापक रूप से अपनाया गया तरीका है (Yann LeCun के ट्वीट देखें)। कागजात अभी भी हम विज्ञान के भीतर ज्ञान को कैसे स्थानांतरित करते हैं, इस संदर्भ में प्रधानता रखते हैं, एक ऐसा प्रतिमान जो अभी तक सार्थक रूप से स्थानांतरित करना है। ये पत्र पत्रिकाओं और सम्मेलनों में स्वीकार किए जाते हैं, या केवल सोशल मीडिया से लोकप्रिय होते हैं। वर्तमान में, ArXiv वह जगह है जहां सहकर्मी समीक्षा से पहले AI सतह के भीतर सबसे बड़े कागजात का बहुमत है।
एक वाक्य में, हमारा लक्ष्य है:
AI के भीतर स्वचालित रूप से मॉडल और डिस्टिल ज्ञान

यह लक्ष्य बड़े, अस्पष्ट और उस तरह के काम के लिए एकदम सही है जिसे हम अगले कुछ वर्षों में पूरा करना चाहते हैं। यह, निश्चित रूप से, हम अपने पिछले दो सर्वेक्षण प्रकाशनों में मैन्युअल रूप से किए गए काम को शामिल करते हैं: कंप्यूटर विजन और मल्टी-मोडल विधियों में एक वर्ष। प्रकाशनों ने, जो हमें लिखते हुए, इन उप-क्षेत्रों के भीतर सर्वश्रेष्ठ और सबसे हाल के अत्याधुनिक (एसओटीए) पत्रों को जोड़ने की कोशिश करने के लिए हाथापाई की, जब तक हमें एहसास नहीं हुआ कि यह कितना निरर्थक था।

एआई-प्रोग्रेस के उभरते हुए राक्षस अपने पुश फॉरवर्ड में अविश्वसनीय है क्योंकि हमने अपने रोमांच के बारे में पचाने, मात्रा निर्धारित करने और लिखने की कोशिश की थी। एआई डिस्टिलरी के लिए, हालांकि, हमारा उद्देश्य हमारे दृष्टिकोण का विस्तार करना और दूसरे कोण से अनुसंधान से निपटना है - हम आपकी उत्सुकता को स्वचालित रूप से शब्द के लिए आकर्षित करते हैं।

शायद यह एआई को एआई लागू करने और क्षेत्र में ज्ञान के क्यूरेशन और संक्षेपण को स्वचालित करने का समय है? हम जानते हैं कि एआई अनुसंधान के लिए समर्पित कई अद्भुत संसाधन हैं, उदाहरण के लिए डिस्टिल.पब, लेकिन ऐसे संसाधनों का संकलन, संपादन और रचनात्मक प्रक्रिया बहुत समय लेने वाली है। क्या निकट-निष्क्रिय तरीके से अंतर्दृष्टि बनाने का एक और तरीका है?
नेटवर्क साइंस का क्षेत्र बड़े उद्धरण नेटवर्क के भीतर संबंधों का अध्ययन करने और खोजने के लिए काफी समर्पित है। हमारे सबसे बड़े प्रेरणाओं में से एक, अर्शीव-विवेक, लोगों को उन कागजों की खोज करने में बहुत मदद करता है जिनकी वे तलाश कर रहे हैं या उन कागजों की सिफारिश कर सकते हैं जो उन्हें पसंद हो सकते हैं। यह खोज-क्षमता और स्वचालन के लिए एक जाँच है।

लेकिन हमें मेटा-रिसर्च गेम में दिलचस्पी है - एआई रिसर्च के बारे में हमारा शोध खुद क्या कह सकता है? यह सभी विश्वविद्यालय, स्टार्टअप और उद्योग के प्रमुख कहां हैं? कौन से क्षेत्र सबसे ज्यादा सहयोग कर रहे हैं? अभी क्या गर्म है, और क्या जल्द ही अनुसंधान-वार गर्म होगा?

हम अभी तक नहीं जानते हैं, लेकिन साथ चलते हैं और शायद हम एक साथ मिल जाएंगे।

सूचना पुनर्प्राप्ति (IR) के नजरिए से समस्या

जानकारी प्राप्त करने के लिए विभिन्न स्थितियों के लिए अलग-अलग तरीकों की आवश्यकता होती है। खोजपूर्ण खोज का संचालन मानक IR प्रणालियों में मुश्किल है क्योंकि शब्दावली निकट संबंधी क्षेत्रों में भी भिन्न हो सकती है (नेटवर्क विश्लेषण बनाम ग्राफ न्यूरल नेटवर्क)। आप क्या खोज रहे हैं, यह जाने बिना समान वाक्यांशों को कैसे खोजें? GAN कागजात के जंगल में अपने नए विचार से संबंधित कागजात कैसे खोजें?

आधुनिक प्राकृतिक भाषा प्रसंस्करण ने इन प्रकार की खोजपूर्ण खोज करने के लिए औजारों की पैदावार की है, हमें बस उन्हें मूल्यवान स्रोतों से डेटा को लागू करने की आवश्यकता है, जैसे कि अरएक्सिव। नतीजतन, हम सबसे अधिक प्रासंगिक, सार्थक जानकारी को जितनी जल्दी हो सके और सही तरीके से आपूर्ति करने का लक्ष्य रखते हैं। इस तरह, शोधकर्ताओं और चिकित्सकों को कागजों के बड़े पूल से आवश्यक जानकारी प्राप्त करने के लिए बोझिल "क्वेरी-इंजीनियरिंग" से राहत मिलेगी।

डेटासेट बनाना

2014 के बाद से प्रति माह ArXiv में जोड़े जाने वाले कागजात की संख्या। 2018 में, उपरोक्त क्षेत्रों में प्रति माह 1000 से अधिक पत्र ArXiv पर जारी किए गए हैं। जनवरी को छोड़कर हर महीने। नवंबर में 2000 से अधिक पेपर जारी किए गए थे।

अपने बुलंद लक्ष्य के लिए एक शुरुआती बिंदु के रूप में, हमने arxiv-sanity code base (Andrej Karpathy द्वारा बनाया गया) का उपयोग ~ Arxiv एपीआई से 2014 के बाद से जारी किए गए ~ 50,000 कागजात को इकट्ठा करने के लिए किया और जो cs के क्षेत्रों में थे। [CV / CL] एलजी | AI | NE] या स्टेट.एम.एल. इन दोनों प्रणालियों के लिए कुदोस, जैसे कि अविश्वसनीय ओपन-सोर्स संसाधन हमें एक ऐसे बिंदु पर लाते हैं जिसमें कोई भी इस ज्ञान तक पहुंच सकता है। हालांकि, परिणाम के रूप में कम से कम एक बाहरीता उत्पन्न हुई है:

अगर बहुत सारे [गॉडडैम] कागजात हैं तो हमें क्या चाहिए?

ठीक है, शायद कागजात की कल्पना करने का एक तरीका है, पुराने और नए, उनके आसपास के शोध के संदर्भ में। यही नहीं, केवल उप-क्षेत्र ही नहीं, बल्कि विभिन्न घोंसले हैं जो यह निवास करते हैं। अन्वेषण आसान हो जाता है, खोज और नेविगेशन सहायता प्राप्त है, असामान्य रूप से महत्वपूर्ण है, पहले यह जानकर कि कागजात और ज्ञान के स्थान पर आप कहाँ स्थित हैं और आपके आसपास क्या है।

पाठी कोष को शुद्ध करना

Pdf2text का उपयोग करके ~ 50000 कागजात को तोड़ दिया गया। हमने स्टॉपवर्ड्स (जैसे "ए", "ए," "") और टोकन को कई बार (जो प्रत्येक विधि के लिए अलग-अलग 5 या 30 - प्रत्येक से कम है) से कम निकाला। आम बिगग्राम ("डीप_लर्निंग") और ट्रिगर्स ("कनवल्शन_नेरल_एन नेटवर्क्स") वही हैं जिन्हें हम एम्बेडिंग सीखना चाहते हैं, लेकिन एन-ग्राम बनाते समय कॉम्बीनेटरियल विस्फोट के कारण समस्या होती है।

सीधे शब्दों में कहें, तो हम बाय-ग्राम जैसे “और_ये” और “इस_पेपर” जिसमें हजारों की संख्या में हैं, सीखने से बचना चाहेंगे। क्योंकि, और भी सरल रूप से, वे एआई अनुसंधान के संदर्भ में कोई मूल्य नहीं देते हैं। वे आम तौर पर कागजात के वर्नाक्यूलर का प्रतिनिधित्व करते हैं।
इसके बजाय, हमने मैन्युअल रूप से सबसे आम एन-ग्राम के बड़े सेट से अवधारणाओं के महत्वपूर्ण सेट को परिभाषित किया - "आवर्तक तंत्रिका नेटवर्क", "वेक्टर मशीन का समर्थन", आदि। पहले दृष्टिकोण के रूप में, हम इन अवधारणाओं को पाठ में पाते हैं और उन्हें प्रतिस्थापित करते हैं। अवधारणा के साथ टोकन (convolutional_neural_networks, support_vector_machine)।

एआई डिस्टिलरी: एआई अनुसंधान की खोज के लिए एक वेब-ऐप

हमने a -distillery.io के माध्यम से एक वेब-ऐप उपलब्ध कराया, जो कि हम अपने परिणामों, टूल, विजेट्स, इनसाइट्स, चार्ट्स और बहुत कुछ दिखाएंगे। हमारे द्वारा एकत्र किए गए डेटासेट पर हमारे कुछ प्रशिक्षित मॉडलों का पता लगाने के साथ-साथ संबंधित अवधारणाओं का पता लगाने के लिए, इसी तरह के कागजात खोजने या रुझानों के साथ प्रत्येक का अवलोकन प्राप्त करने और समय के साथ उनकी प्रगति को ट्रैक करने के लिए वेब-ऐप का उपयोग करना संभव है। वर्तमान में कुल 6 पृष्ठ उपलब्ध हैं, और आने वाले महीनों में हम इसे बहुत अपडेट करने की योजना बना रहे हैं। य़े हैं:

पेपर सर्च (एआई डिस्टिलरी)

कागज़ की खोज: अर्क्सिव-सनिटी-प्रेज़वर की कार्यक्षमता में समान है लेकिन हम अधिक लचीलेपन और स्केलेबिलिटी के लिए व्हाट्स सर्च लाइब्रेरी का उपयोग करते हैं। एक क्वेरी फेंकें और इस क्वेरी के लिए सबसे अधिक प्रासंगिक पेपर ढूंढें।

कागज निकटता (एआई डिस्टिलरी)

शब्द एम्बेडिंग निकटता: शब्दार्थ समान शब्द ढूँढें, उदा। "CNN" "कंसेंट" के करीब है और "RNN" "LSTM" के करीब है

पेपर एंबेडिंग समीपता: इसी तरह के कागजात ढूंढें, उदा। "एलेक्सनेट" पेपर "गोगेलनेट" पेपर के करीब हो सकता है या आम तौर पर, एक ही क्षेत्र के भीतर कागजात अलग-अलग क्षेत्रों के कागजात की तुलना में करीब होंगे।

एंबेडिंग विज़ुअलाइज़ेशन (एआई डिस्टिलरी)

शब्द एम्बेडिंग विज़ुअलाइज़ेशन: 2 डी टी-एसएनई चार्ट दिखा रहा है कि शब्द एम्बेडिंग विधियों के साथ एम्बेडिंग स्पेस में एक दूसरे के करीब क्या हैं: Word2vec और fastText

पेपर एम्बेडिंग विज़ुअलाइज़ेशन: एक और टी-एसएनई चार्ट लेकिन पेपर एम्बेडिंग स्पेस की कल्पना करने के लिए और हमारे दो चुने हुए एम्बेडिंग तरीकों के साथ एलएसए और doc2vec।

चार्ट और अतिरिक्त अंतर्दृष्टि: चार्ट और अंतर्दृष्टि हम दिलचस्प पाते हैं और हमने अपनी यात्रा के साथ बनाया है उदा। शीर्ष लेखक, शीर्ष पत्र, प्रति माह जारी किए गए पत्रों की संख्या, आदि।
कुछ चार्ट्स और इनसाइट्स का एक उदाहरण एक ArXiv पेपर कॉर्पस से स्वचालित रूप से उत्पादन कर सकता है। समय के माध्यम से कागजात में presence गण ’की उपस्थिति, सबसे प्रकाशित विषय, अधिकांश उद्धृत लेखक, आदि।

गोल-गोल

हम अपने सबसे अच्छे हथियारों का उपयोग AI प्रगति के जानवर, यानी फ्लास्क, रिएक्टजेएस, डी 3.जेएस, चार्टज और हूश के साथ करते हैं। हर्ट्ज़्नर के साथ ऐप के वर्तमान संस्करण की मेजबानी करने से पहले, हम हरकोको (बहुत कम रैम) से Google कम्प्यूट इंजन (बहुत कम रैम के लिए बहुत महंगा) के लिए एक मजेदार यात्रा कर रहे थे।

हमने एआई डिस्टिलरी की शुरुआत दो "पेपर एम्बेडिंग" विधियों, लेटेंट सेमेटिक एनालिसिस (एलएसए) और doc2vec - और दो शब्द एम्बेडिंग एल्गोरिदम, वर्ड 2vec और फास्टटेक्स्ट के साथ की। अपनी अगली किस्त में हम इन एम्बेडिंग के माध्यम से पाठकों को चलते हैं, साथ ही साथ हमारे द्वारा बनाए गए प्रत्येक पृष्ठ को। अभी के लिए, साइट (ai-distillery.io) का पता लगाने के लिए स्वतंत्र महसूस करें। आप एआई डिस्टिलरी गिटहब रेपो में हमारे प्रयोग कोड पा सकते हैं, जहां हमने उपरोक्त कुछ करने के लिए जेन्सिम, स्केलेर और स्पेसी जैसी रूपरेखाओं का उपयोग किया था।

हमेशा की तरह, हमारे काम को पढ़ने के लिए समय निकालने के लिए धन्यवाद। और कृपया, इसके लिए ताली बजाएं और एमटैंक के काम को साझा करें, जिसे आप सोचते हैं कि वह इसे पसंद कर सकता है। आपका समर्थन हम सभी को नई चीजों की कोशिश करने और हमारे दो सेंट एआई समुदाय में योगदान करने के लिए प्रेरित करता है। इसलिए, इस मामले में, यदि आप जो भी कर रहे हैं, तो आपको अपनी सराहना नहीं मिलनी चाहिए!

यदि आप AI प्रगति को और अधिक पारदर्शी बनाने की हमारी जंगली यात्रा में हमारे साथ सहयोग करना चाहते हैं या हमारे शोध या वेब-ऐप के किसी भी हिस्से के बारे में कोई टिप्पणी करना चाहते हैं, तो हम सुझाव के लिए खुले हैं ताकि टिप्पणी अनुभाग में पहुंचने के लिए स्वतंत्र महसूस हो। ईमेल द्वारा (info@themtank.com)। इस श्रृंखला के भाग 2 के लिए नज़र रखें, जो जल्द ही आ रही है और नई ब्लॉग श्रृंखला की शुरुआत हमने अपने विज़न ब्लॉग (कपल्स से लेकर चेतना) में की है।