राडू मारकुसु द्वारा फोटो

आधुनिक प्राकृतिक भाषा प्रसंस्करण के सर्वश्रेष्ठ और सबसे वर्तमान

पिछले दो वर्षों में, प्राकृतिक भाषा प्रसंस्करण समुदाय ने विभिन्न कार्यों और अनुप्रयोगों की एक विस्तृत श्रृंखला में प्रगति में तेजी देखी है। Ig इस प्रगति को हमने एक एनएलपी प्रणाली के निर्माण में जिस तरह से प्रतिमान की एक पारी द्वारा सक्षम किया था: एक लंबे समय के लिए, हमने एक पूर्व-प्रशिक्षित शब्द एम्बेडिंग का उपयोग किया जैसे कि शब्द 2vec या GloVe, एक तंत्रिका नेटवर्क की पहली परत को शुरू करने के लिए, इसके बाद एक कार्य-विशिष्ट वास्तुकला जो एकल डेटासेट का उपयोग करके पर्यवेक्षित तरीके से प्रशिक्षित किया जाता है।

हाल ही में, कई कार्यों ने प्रदर्शित किया कि हम वेब-स्केल डेटासेट पर पदानुक्रमिक संदर्भात्मक अभ्यावेदन सीख सकते हैं modeling भाषा मॉडलिंग जैसे असुरक्षित (या स्वयं-पर्यवेक्षित) संकेतों का लाभ उठाते हुए इस पूर्व-प्रशिक्षण को डाउनस्ट्रीम कार्यों (ट्रांसफर लर्निंग) में स्थानांतरित कर सकते हैं। उत्साहजनक रूप से, इस बदलाव ने महत्वपूर्ण उत्तर देने के लिए डाउनस्ट्रीम अनुप्रयोगों की एक विस्तृत श्रृंखला पर प्रश्न उत्तर से लेकर, प्राकृतिक भाषा में सिंथेटिक पार्सिंग के माध्यम से…

"आधुनिक एनएलपी में नवीनतम रुझानों को पकड़ने के लिए मैं कौन से कागजात पढ़ सकता हूं?"

कुछ हफ्ते पहले, मेरे एक दोस्त ने एनएलपी में गोता लगाने का फैसला किया। मशीन लर्निंग और डीप लर्निंग में उनकी पृष्ठभूमि पहले से ही है, इसलिए उन्होंने मुझसे पूछा: "आधुनिक एनएलपी में नवीनतम रुझानों को पकड़ने के लिए मैं कौन से पेपर पढ़ सकता हूं?"।

यह वास्तव में एक अच्छा सवाल है, खासकर जब आप उस एनएलपी सम्मेलनों (और सामान्य रूप से एमएल सम्मेलनों) में कारक होते हैं, सबमिशन की तेजी से बढ़ती संख्या प्राप्त करते हैं: + 80% NAACL 2019 VS 2018, + 90% ACL 2018 VS 2018,…

मैंने उनके लिए कागजात और संसाधनों की इस सूची को संकलित किया, और मैंने सोचा कि इसे समुदाय के साथ साझा करना बहुत अच्छा होगा क्योंकि मेरा मानना ​​है कि यह बहुत से लोगों के लिए उपयोगी हो सकता है।

डिस्क्लेमर: यह सूची संपूर्ण नहीं है, और न ही एनएलपी में हर एक विषय को कवर करने के लिए है (उदाहरण के लिए, सेमेटिक पार्सिंग, एडवरसैरियल लर्निंग, एनएलपी पर लागू सुदृढीकरण सीखना कुछ भी नहीं है ...)। यह पिछले कुछ वर्षों / महीनों (मई 2019 तक) में सबसे हालिया प्रभावशाली कार्यों की एक पिक है, जो कि मैंने जो भी पढ़ा है, उससे प्रभावित हूं।

सामान्यतया, शुरू करने का एक अच्छा तरीका उच्च स्तरीय दृश्य के साथ परिचय या सारांश ब्लॉग पोस्ट पढ़ना है जो आपको एक पेपर पढ़ने में समय बिताने से पहले पर्याप्त संदर्भ देता है (उदाहरण के लिए इस पोस्ट या यह एक)।

किसने कहा कि नामकरण मॉडल उबाऊ और उदास होना चाहिए? - स्रोत: Moviefone

New एक नया प्रतिमान: स्थानांतरण लर्निंग

ये संदर्भ एनएलपी के लिए ट्रांसफर लर्निंग में मूलभूत विचारों को शामिल करते हैं:

  • गहन संदर्भ शब्द निरूपण (NAACL 2018)
    मैथ्यू ई। पीटर्स, मार्क न्यूमैन, मोहित अय्यर, मैट गार्डनर, क्रिस्टोफर क्लार्क, केंटन ली, ल्यूक ज़ेटेलमॉयर
  • पाठ वर्गीकरण (ACL 2018) के लिए यूनिवर्सल भाषा मॉडल फाइन-ट्यूनिंग
    जेरेमी हॉवर्ड, सेबेस्टियन रूडर
  • पीढ़ी पूर्व प्रशिक्षण द्वारा भाषा को बेहतर बनाना
    एलेक रेडफोर्ड, कार्तिक नरसिम्हन, टिम सलीमन्स, इल्या सुतस्क्वर
  • भाषा मॉडल Unsupervised Multitask शिक्षार्थी हैं
    एलेक रैडफोर्ड, जेफरी वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी, इल्या सुतस्क्वर
  • BERT: लैंग्वेज अंडरस्टैंडिंग के लिए डीप बिडायरेक्शनल ट्रांसफॉर्मर्स का पूर्व प्रशिक्षण (NAACL 2019)
    जैकब देवलिन, मिंग-वी चांग, ​​केंटन ली, क्रिस्टीना टाउटनोवा
  • स्व-ध्यान नेटवर्क के क्लोज़-संचालित प्रीट्रेनिंग (arXiv 2019)
    एलेक्सी बैवस्की, सर्गेई एडुनोव, यिहान लियू, ल्यूक ज़ेट्लेमॉययर, माइकल औली
  • प्राकृतिक भाषा समझ और सृजन के लिए एकीकृत भाषा मॉडल पूर्व प्रशिक्षण (arXiv 2019)
    ली डोंग, नान यांग, वेन्हुई वांग, फुरू वेई, शियाओदोंग लिउ, यू वांग, जियानफेंग गाओ, मिंग झोउ, ह्सियाओ-वूएन मान
  • MASS: भाषा अनुक्रम के लिए अनुक्रम पूर्व प्रशिक्षण के लिए नकाबपोश अनुक्रम (ICML 2019)
    कैताओ सॉन्ग, जू टैन, ताओ किन, जियानफेंग लू, टाई-यान लियू
अनुक्रम मॉडलिंग कार्यों में ट्रांसफार्मर वास्तुकला सर्वव्यापी बन गया है। - स्रोत: ध्यान आप सभी की जरूरत है

Ation प्रतिनिधित्व सीखना:

  • आप एक एकल वेक्टर में क्या रटना कर सकते हैं: भाषाई गुणों (ACL 2018) के लिए सजा वाक्य एम्बेडिंग
    एलेक्सिस कोन्यू, जर्मन क्रूसजेवस्की, गिलियूम लंपल, लॉक बराल्ट, मार्को बारोनी
  • कोई प्रशिक्षण आवश्यक नहीं: सजा वर्गीकरण के लिए रैंडम एनकोडर की खोज (ICLR 2019)
    जॉन विटिंग, डौवे कील
  • GLUE: प्राकृतिक भाषा समझ (ICLR 2019) के लिए एक मल्टी टास्क बेंचमार्क और विश्लेषण मंच
    एलेक्स वांग, अमनप्रीत सिंह, जूलियन माइकल, फेलिक्स हिल, ओमर लेवी, सैमुअल आर। बोमन
    तथा
    SuperGLUE: जनरल-पर्पस लैंग्वेज अंडरस्टैंडिंग सिस्टम के लिए एक स्टिकर बेंचमार्क (arXiv 2019)
    एलेक्स वांग, यादा प्रुकाशचाकुन, निकिता नांगिया, अमनप्रीत सिंह, जूलियन माइकल, फेलिक्स हिल, ओमर लेवी, सैमुअल आर। बोमन
  • भाषाई ज्ञान और प्रासंगिक प्रतिनिधियों की हस्तांतरणीयता (NAACL 2019)
    नेल्सन एफ। लियू, मैट गार्डनर, योनाटन बेलिन्कोव, मैथ्यू ई। पीटर्स, नूह ए। स्मिथ
  • ट्यून के लिए या ट्यून के लिए नहीं? विविध कार्यों के लिए पूर्वप्रतिनिधि का प्रतिनिधित्व करना (arXiv 2019)
    मैथ्यू पीटर्स, सेबेस्टियन रूडर, नोआ ए स्मिथ

Ural तंत्रिका संवाद:

  • एक तंत्रिका संवादी मॉडल (ICML डीप लर्निंग वर्कशॉप 2015)
    ओरोल विनयल्स, क्वोक ले
  • एक व्यक्ति-आधारित तंत्रिका वार्तालाप मॉडल (ACL 2016)
    जीवेई ली, मिशेल गैली, क्रिस ब्रोकेट, जॉर्जियोस पी। स्पिथौराकिस, जियानफेंग गाओ, बिल डोलन
  • तंत्रिका जनन के लिए एक सरल, तेज़ डायसोड डिकोडिंग एल्गोरिथम (arXiv 2017)
    जीवेई ली, विल मोनरो, डैन जुराफस्की
  • वार्तालाप एआई के लिए तंत्रिका दृष्टिकोण (arXiv 2018)
    जियानफेंग गाओ, मिशेल गैली, लीहोंग ली
  • TransferTransfo: तंत्रिका नेटवर्क आधारित संवादी एजेंटों के लिए स्थानांतरण सीखना दृष्टिकोण (NeurIPS 2018 CAI कार्यशाला)
    थॉमस वुल्फ, विक्टर सनह, जुलियन चौमोंड, क्लेमेंट डेलंगु
    अस्वीकरण: मैं इस प्रकाशन पर एक लेखक हूं।
    स्टेप बाई स्टेप स्पष्टीकरण ब्लॉग पोस्ट
  • विजार्ड ऑफ़ विकिपीडिया: ज्ञान-संचालित संवादी एजेंट (ICLR 2019)
    एमिली दीनन, स्टीफन रोलर, कर्ट शस्टर, एंजेला फैन, माइकल औली, जेसन वेस्टन
  • एक काल्पनिक पाठ साहसिक खेल में बोलना और अधिनियम सीखना (arXiv 2019)
    जैक अर्बनक, एंजेला फैन, सिद्धार्थ करमचेती, साची जैन, सैमुअल हम्उ, एमिली दीनन, टिम रॉकटाचेल, डौवे कील, आर्थर स्ज़लम, जेसन वेस्टन

विभिन्न पिक्स:

  • सूचक नेटवर्क (एनआईपीएस 2015)
    ओरोल विनयल्स, मीर फार्चूनो, नवदीप जेटली
  • एंड-टू-एंड मेमोरी नेटवर्क (NIPS 2015)
    सैंब्यार सुखबातार, आर्थर स्ज़लाम, जेसन वेस्टन, रोब फर्गस
  • इस बिंदु पर जाएं: सूचक-जेनरेटर नेटवर्क (ACL 2017) के साथ सारांश
    अबीगैल सी, पीटर जे। लिउ, क्रिस्टोफर डी। मैनिंग
  • प्राकृतिक भाषा अनुमान डेटा (EMNLP 2017) से यूनिवर्सल सेंटेंस रिप्रेजेंटेशन का पर्यवेक्षण सीखना
    एलेक्सिस कोन्यू, डोवे किला, होल्गर श्वेनक, लोइक बरौल्ट, एंटोनी बोर्ड्स
  • एंड-टू-एंड न्यूरल कॉन्फ्रेंस रिजोल्यूशन (EMNLP 2017)
    केंटन ली, लुहेंग हे, माइक लुईस, ल्यूक ज़ेट्लेमॉययर
  • स्टारस्पेस: सभी चीजें एम्बेड करें! (AAAI 2018)
    लेडेल वू, एडम फिश, सुमित चोपड़ा, कीथ एडम्स, एंटोनी बोर्ड्स, जेसन वेस्टन
  • द नेचुरल लैंग्वेज डेकाथलॉन: मल्टीटास्क लर्निंग इन क्वेश्चन आंसरिंग (arXiv 2018)
    ब्रायन मैककेन, नितीश शिरीष केस्कर, कैमिंग जिओंग, रिचर्ड सोचर
  • कैरेक्टर-लेवल लैंग्वेज मॉडलिंग विथ डीपर सेल्फ-अटेंशन (arXiv 2018)
    रामी अल-रफौ, डोकूक चोय, नोआ कॉन्स्टेंट, मैंडी गुओ, लिलियन जोन्स
  • भाषाई रूप से सूचित स्व-ध्यान के लिए शब्दार्थ भूमिका लेबलिंग (EMNLP 2018)
    एम्मा स्ट्रुबेल, पैट्रिक वेरगा, डैनियल एंडोर, डेविड वीस, एंड्रयू मैकलम
  • वाक्यांश-आधारित और तंत्रिका अस्वस्थ मशीन अनुवाद (EMNLP 2018)
    गिलाइम लम्पल, माइल ओट, एलेक्सिस कॉन्यू, लुडोविक डेनोएर, मार्क'अरेएलियो रैनज़ो
  • लर्निंग सामान्य प्रयोजन बड़े पैमाने पर बहु-कार्य लर्निंग (ICLR 2018) के माध्यम से वाक्य भेजे गए प्रतिनिधि
    संदीप सुब्रमण्यन, एडम ट्रिशलर, योशुआ बेंगियो, क्रिस्टोफर जे पाल
  • ट्रांसफॉर्मर-एक्स्ट्रा लार्ज: अडेंटिव लैंग्वेज मॉडल्स बियॉन्ड अ फिक्स्ड-लेंथ कॉन्सेप्ट (arXiv 2019)
    ज़िहंग दाई, ज़ीलिन यांग, यिमिंग यांग, जैमे कार्बनेल, क्वोक वी। ले, रुस्लान सलातुर्द्दोव
  • यूनिवर्सल ट्रांसफॉर्मर (ICLR 2019)
    मुस्तफा देहगानी, स्टीफ़न गॉव्स, ओरियल विनील्स, जैकब उसज़ोर्किट, ,ukkzziser
  • Pretrained Language Model (NAACL 2019) से स्थानांतरण सीखने के लिए एक सरल दृष्टिकोण
    एलेक्जेंड्रा क्रोनोपौलौ, क्रिस्टोस बज़ियोटिस, अलेक्जेंड्रोस पोतामियानोस
  • ... पुराने कागजात के लिए, उद्धरणों की संख्या आम तौर पर एक उचित प्रॉक्सी होती है जब चुनना है कि क्या पढ़ना है।

अंगूठे के एक अच्छे नियम के रूप में, आपको उन कागजों को पढ़ना चाहिए, जो आपको दिलचस्प लगते हैं और आप में खुशी पैदा करते हैं!

सामान्य संसाधन

बहुत सारे अद्भुत संसाधन उपलब्ध हैं जिनका आप उपयोग कर सकते हैं जो जरूरी कागज नहीं हैं। यहाँ कुछ है:

पुस्तकें:

  • भाषण और भाषा प्रसंस्करण (तीसरा संस्करण। ड्राफ्ट)
    डैन जुराफस्की और जेम्स एच। मार्टिन
  • प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क के तरीके
    योव गोल्डबर्ग

पाठ्यक्रम सामग्री:

  • NYU में कैटरीना कन्न और सैम बोमन के साथ प्राकृतिक भाषा की समझ और कम्प्यूटेशनल शब्दार्थ
  • CS224n: नेचुरल लैंग्वेज प्रोसेसिंग विथ डीप लर्निंग विथ क्रिस मैनिंग एंड एबिगेल व्यू एट स्टैंडफोर्ड
  • प्रासंगिक शब्द प्रतिनिधि: नूह ए। स्मिथ की शिक्षण सामग्री से एक प्रासंगिक परिचय

ब्लॉग / पॉडकास्ट:

  • सेबस्टियन रूडर का ब्लॉग
  • जे। अलम्मार का सचित्र ब्लॉग
  • एनएलपी हाइलाइट्स की मेजबानी मैट गार्डनर और वलीद अम्मार ने की

अन्य:

  • कोड के साथ कागजात
  • ट्विटर
  • arXiv दैनिक समाचार पत्र
  • सर्वेक्षण पत्र
  • ...

अंतिम सलाह

यह संकेत के लिए है! इन संसाधनों में से कुछ को पढ़ना आपको पहले से ही समकालीन एनएलपी में नवीनतम रुझानों की एक अच्छी समझ प्रदान करना चाहिए और उम्मीद है कि आप अपने स्वयं के एनएलपी सिस्टम का निर्माण करने में मदद करेंगे!

एक आखिरी बात जो मैंने इस पोस्ट में ज्यादा बात नहीं की, लेकिन यह कि मुझे बेहद महत्वपूर्ण (और कभी-कभी उपेक्षित) लगता है कि पढ़ना अच्छा है, लागू करना बेहतर है! Learn by आप अक्सर (कभी-कभी) संलग्न कोड में डाइविंग के साथ अपने पढ़ने को पूरक करके या इसे स्वयं लागू करने की कोशिश करके बहुत कुछ सीखेंगे। प्रैक्टिकल संसाधनों में अद्भुत ब्लॉग पोस्ट और fast.ai या हमारे source ओपन-सोर्स रिपॉजिटरी से पाठ्यक्रम शामिल हैं।

आप क्या? वे कौन से कार्य हैं जिनका आप पर सबसे अधिक प्रभाव पड़ा है? हमें टिप्पणियों में बताएं!

हमेशा की तरह, अगर आपको यह पोस्ट पसंद आया, तो हमें कुछ दें और हमें अपने आस-पास की खबरें साझा करने दें!

अपनी टिप्पणियों और प्रतिक्रिया के लिए लिसेंड्रे डेब्यू, क्लेमेंट डेलंग्यू, थिबॉल्ट फेवरी, पीटर मार्टेन, एंथनी मोई और थॉमस वुल्फ को बहुत धन्यवाद।