ऑटोएमएल: स्वायत्त ड्राइविंग के लिए मशीन लर्निंग मॉडल के डिजाइन को स्वचालित करना

द्वारा: शुआंग चेंग और गेब्रियल बेंडर *

Waymo में, मशीन लर्निंग हमारे सेल्फ-ड्राइविंग सिस्टम के लगभग हर हिस्से में एक महत्वपूर्ण भूमिका निभाता है। यह हमारी कारों को उनके परिवेश को देखने में मदद करता है, दुनिया की समझ बनाता है, भविष्यवाणी करता है कि अन्य लोग कैसे व्यवहार करेंगे, और अपनी अगली सबसे अच्छी चाल तय करेंगे।

धारणा लें: हमारी प्रणाली तंत्रिका जाल का एक संयोजन नियुक्त करती है जो हमारे वाहनों को सेंसर डेटा की व्याख्या करने के लिए वस्तुओं की पहचान करने और उन्हें समय पर ट्रैक करने में सक्षम बनाता है ताकि इसके आसपास की दुनिया की गहरी समझ हो सके। इन तंत्रिका जालों का निर्माण अक्सर एक समय लेने वाला कार्य होता है; हमारे सेल्फ-ड्राइविंग कारों पर चलने के लिए आवश्यक गुणवत्ता और गति दोनों प्राप्त करने के लिए तंत्रिका जाल आर्किटेक्चर का अनुकूलन ठीक-ट्यूनिंग की एक जटिल प्रक्रिया है जो हमारे इंजीनियरों को एक नए कार्य के लिए ले जा सकती है।

अब, ब्रेन टीम के Google AI शोधकर्ताओं के सहयोग से, हम अत्याधुनिक नेट को स्वचालित रूप से उत्पन्न करने के लिए अत्याधुनिक शोध कर रहे हैं। क्या अधिक है, ये अत्याधुनिक तंत्रिका जाल उच्च गुणवत्ता वाले और तेज हैं, जो इंजीनियरों द्वारा मैन्युअल रूप से ठीक किए गए हैं।

अपनी सेल्फ ड्राइविंग तकनीक को विभिन्न शहरों और वातावरणों में लाने के लिए, हमें अपने मॉडलों को अलग-अलग परिदृश्यों के लिए एक महान वेग से अनुकूलित करना होगा। ऑटोएमएल हमें ऐसा करने में सक्षम बनाता है, जो कुशलतापूर्वक और लगातार एमएल समाधान का एक बड़ा सेट प्रदान करता है।

ट्रांसफर लर्निंग: मौजूदा ऑटोएमएल आर्किटेक्चर का उपयोग करना

हमारा सहयोग एक सरल प्रश्न के साथ शुरू हुआ: क्या ऑटोएमएल कार के लिए उच्च गुणवत्ता और कम विलंबता तंत्रिका जाल उत्पन्न कर सकता है?

गुणवत्ता तंत्रिका जाल द्वारा उत्पादित उत्तरों की सटीकता को मापती है। विलंबता यह मापती है कि जाल कितनी तेजी से अपने उत्तर प्रदान करता है, जिसे अनुमान काल भी कहा जाता है। चूंकि ड्राइविंग एक गतिविधि है जिसके लिए हमारे वाहनों को वास्तविक समय के उत्तर का उपयोग करने की आवश्यकता होती है और हमारे सिस्टम की सुरक्षा-महत्वपूर्ण प्रकृति को देखते हुए, हमारे तंत्रिका जाल को कम विलंबता के साथ संचालित करने की आवश्यकता होती है। हमारे वाहनों पर सीधे चलने वाले हमारे अधिकांश जाल 10ms से कम समय में परिणाम प्रदान करते हैं, जो हजारों सर्वरों पर चलने वाले डेटा केंद्रों में तैनात कई जालों की तुलना में तेज है।

अपने मूल ऑटोएमएल पेपर [1] में, हमारे Google AI सहयोगी CIFAR-10 की क्लासिक छवि मान्यता कार्य को हल करने के लिए स्वचालित रूप से 12,000 से अधिक आर्किटेक्चर का पता लगाने में सक्षम थे: दस श्रेणियों में से एक के प्रतिनिधि के रूप में एक छोटी छवि की पहचान करें, जैसे कार , एक विमान, एक कुत्ता, आदि एक अनुवर्ती कागज [2] में, उन्होंने तंत्रिका जाल निर्माण खंडों के एक परिवार की खोज की, जिसे एनएएस कोशिकाएं कहा जाता है, जिसे CIFAR-10 के लिए हाथ से तैयार किए गए जाल से बेहतर बनाने के लिए स्वचालित रूप से बनाया जा सकता है। और इसी तरह के कार्य। इस सहयोग के साथ, हमारे शोधकर्ताओं ने स्व-ड्राइविंग के लिए विशिष्ट कार्यों के लिए स्वचालित रूप से नए मॉडल बनाने के लिए इन कोशिकाओं का उपयोग करने का निर्णय लिया, इस प्रकार हमारे क्षेत्र में CIFAR-10 पर जो सीखा गया था, उसे स्थानांतरित कर दिया। हमारा पहला प्रयोग सिमेंटिक सेगमेंटेशन कार्य के साथ था: एक LiDAR बिंदु बादल में प्रत्येक बिंदु को या तो एक कार, एक पैदल यात्री, एक पेड़, आदि की पहचान करें।

एनएएस सेल का एक उदाहरण। यह सेल एक तंत्रिका जाल में दो पिछली परतों से इनपुट संसाधित करता है।

ऐसा करने के लिए, हमारे शोधकर्ताओं ने हमारे LiDAR विभाजन कार्य के लिए एक आदर्श नेट आर्किटेक्चर (CNN), प्रशिक्षण और मूल्यांकन मॉडल के भीतर सैकड़ों विभिन्न NAS सेल संयोजनों का पता लगाने के लिए एक स्वचालित खोज एल्गोरिथ्म की स्थापना की। जब हमारे इंजीनियर हाथ से इन जालों को ठीक करते हैं, तो वे केवल सीमित मात्रा में आर्किटेक्चर का पता लगा सकते हैं, लेकिन इस पद्धति के साथ, हम स्वचालित रूप से सैकड़ों की खोज करते हैं। हमें ऐसे मॉडल मिले जिन्होंने पहले वाले हाथ से तैयार किए गए दो तरीकों में सुधार किया:

  • कुछ में समान गुणवत्ता के साथ काफी कम विलंबता थी।
  • दूसरों के पास एक समान विलंबता के साथ एक उच्च गुणवत्ता भी थी।

इस शुरुआती सफलता को देखते हुए, हमने ट्रैफ़िक लेन का पता लगाने और स्थानीयकरण से संबंधित दो अतिरिक्त कार्यों के लिए एक ही खोज एल्गोरिदम लागू किया। ट्रांसफर लर्निंग तकनीक ने इन कार्यों के लिए भी काम किया, और हम कार पर तीन नव-प्रशिक्षित और बेहतर तंत्रिका जाल तैनात करने में सक्षम थे।

एंड-टू-एंड सर्च: स्क्रैच से नए आर्किटेक्चर की खोज

हमें इन पहले परिणामों से प्रोत्साहित किया गया था, इसलिए हमने पूरी तरह से नए आर्किटेक्चर के लिए अधिक व्यापक रूप से एक कदम आगे जाने का फैसला किया, जो और भी बेहतर परिणाम प्रदान कर सके। पहले से ही खोजे गए NAS कोशिकाओं के संयोजन के लिए खुद को सीमित न करके, हम उन आर्किटेक्चर के लिए अधिक सीधे देख सकते हैं जिन्होंने हमारी सख्त विलंबता आवश्यकताओं को ध्यान में रखा था।

एक एंड-टू-एंड खोज का संचालन करने के लिए आमतौर पर हजारों आर्किटेक्चर को मैन्युअल रूप से तलाशने की आवश्यकता होती है, जो बड़ी कम्प्यूटेशनल लागत वहन करती है। किसी एकल आर्किटेक्चर को एक्सप्लोर करने के लिए कई GPU कार्डों के साथ डेटा सेंटर कंप्यूटर पर कई दिनों के प्रशिक्षण की आवश्यकता होती है, जिसका अर्थ है कि किसी एक कार्य को खोजने के लिए हजारों दिनों की संगणना होगी। इसके बजाय, हमने एक छद्म कार्य तैयार किया: एक स्केल-डाउन LiDAR विभाजन कार्य जिसे कुछ ही घंटों में हल किया जा सकता था।

एक चुनौती जिसे टीम को पार करना था वह हमारे मूल विभाजन कार्य के समान एक प्रॉक्सी कार्य ढूंढ रही थी। हमने उस कार्य पर आर्किटेक्चर की गुणवत्ता और मूल कार्य पर पाए गए लोगों के बीच एक अच्छे संबंध का पता लगाने से पहले कई प्रॉक्सी कार्य डिजाइनों के साथ प्रयोग किया। फिर हमने मूल ऑटोएमएल पेपर से एक समान खोज शुरू की, लेकिन अब प्रॉक्सी कार्य पर: एक प्रॉक्सी एंड-टू-एंड खोज। यह पहली बार था जब इस अवधारणा को LiDAR डेटा पर उपयोग के लिए लागू किया गया था।

प्रॉक्सी एंड-टू-एंड खोज: एक स्केल-डाउन प्रॉक्सी कार्य पर हजारों आर्किटेक्चर का अन्वेषण करें, 100 सर्वश्रेष्ठ लोगों को मूल कार्य पर लागू करें, कार पर सर्वश्रेष्ठ आर्किटेक्चर के सर्वश्रेष्ठ को मान्य और तैनात करें।

हमने कई खोज एल्गोरिदम का उपयोग किया, जो गुणवत्ता और विलंबता के लिए अनुकूलन करते हैं, क्योंकि यह वाहन पर महत्वपूर्ण है। विभिन्न प्रकार के सीएनएन आर्किटेक्चर को देखते हुए और विभिन्न खोज रणनीतियों का उपयोग करते हुए, जैसे कि यादृच्छिक खोज और सुदृढीकरण सीखने, हम प्रॉक्सी कार्य के लिए 10,000 से अधिक विभिन्न आर्किटेक्चर का पता लगाने में सक्षम थे। प्रॉक्सी कार्य का उपयोग करके, Google TPU क्लस्टर पर कम्प्यूटेशनल समय के एक वर्ष से अधिक का समय क्या होगा। जब हमने NAS कोशिकाओं को स्थानांतरित किया था, तो हमने पहले की तुलना में कहीं अधिक बेहतर जाल पाया था:

  • 20-30% कम विलंबता और समान गुणवत्ता के परिणाम के साथ तंत्रिका जाल।
  • पिछले आर्किटेक्चर के समान विलंबता पर, 8-10% कम त्रुटि दर के साथ उच्च गुणवत्ता के तंत्रिका जाल।
1) पहला ग्राफ 4,000 आर्किटेक्चर के बारे में दिखाता है जो एक साधारण खोज पर आर्किटेक्चर के यादृच्छिक सेट के साथ खोजा गया है। प्रत्येक बिंदु एक वास्तुकला है जिसे प्रशिक्षित और मूल्यांकन किया गया था। ठोस लाइन अलग-अलग इंजेक्शन समय की कमी में सबसे अच्छा आर्किटेक्चर को चिह्नित करती है। रेड डॉट ट्रांसफर लर्निंग के साथ निर्मित नेट की विलंबता और प्रदर्शन को दर्शाता है। इस यादृच्छिक खोज में, जाल हस्तांतरण सीखने से एक के रूप में अच्छे नहीं थे। 2) दूसरे ग्राफ में, पीले और नीले बिंदु दो अन्य खोज एल्गोरिदम के परिणाम दिखाते हैं। पीला एक आर्किटेक्चर के परिष्कृत सेट पर एक यादृच्छिक खोज था। नीले रंग ने सुदृढीकरण सीखने का उपयोग किया [1] और 6,000 से अधिक आर्किटेक्चर का पता लगाया। इसने सर्वोत्तम परिणाम दिए। इन दो अतिरिक्त खोजों में जाल पाए गए जो हस्तांतरण सीखने से नेट से काफी बेहतर थे।

खोज में पाए गए कुछ आर्किटेक्चर ने दीक्षांत समारोह, पूलिंग और डीकनोवोल्यूशन ऑपरेशंस के रचनात्मक संयोजनों को दिखाया, जैसे कि नीचे की आकृति में। ये आर्किटेक्चर हमारे मूल LiDAR विभाजन कार्य के लिए बहुत अच्छी तरह से काम कर रहे थे और उन्हें Waymo के सेल्फ-ड्राइविंग वाहनों पर तैनात किया जाएगा।

प्रॉक्सी नेट-टू-एंड खोज द्वारा खोजे गए तंत्रिका जाल आर्किटेक्चर में से एक।

आगे क्या होगा

हमारे ऑटोएमएल प्रयोग अभी शुरुआत हैं। हमारे LiDAR विभाजन कार्यों के लिए, दोनों हस्तांतरण सीखने और प्रॉक्सी एंड-टू-एंड खोज ने नेट प्रदान किए जो हाथ से तैयार किए गए लोगों की तुलना में बेहतर थे। अब हमारे पास इन तंत्रों को नए प्रकार के कार्यों में भी लागू करने का अवसर है, जो कई अन्य तंत्रिका जालों में सुधार कर सकते हैं।

यह विकास हमारे भविष्य के एमएल काम के लिए नए और रोमांचक रास्ते खोलता है और हमारी स्व-ड्राइविंग तकनीक के प्रदर्शन और क्षमताओं में सुधार करेगा। हम Google AI के साथ अपना काम जारी रखना चाहते हैं, इसलिए अधिक समय तक बने रहें!

संदर्भ

[१] बैरेट ज़ोफ़ और क्वोक वी। ले। सुदृढीकरण सीखने के साथ तंत्रिका वास्तुकला खोज। ICLR, 2017।

[२] बैरेट ज़ोफ़, विजय वासुदेवन, जोनाथन श्लेंस, क्वोक वी। ले, स्केलेबल इमेज रिकॉग्निशन के लिए लर्निंग ट्रांसफ़रेबल आर्किटेक्चर। CVPR, 2018।

* स्वीकृतियाँ

Waymo और Google के बीच यह सहयोग Google के Waymo और Quoc Le के Matthieu Devin द्वारा शुरू और प्रायोजित किया गया था। काम का संचालन वेमुमो के श्यांग चेंग और गूगल के गैब्रियल बेंडर और पीटर-जेन किंडरमैन द्वारा किया गया था। विशी तिरुमलशेट्टी के समर्थन के लिए अतिरिक्त धन्यवाद।

वेमो और Google टीमों के सदस्य (बाएं से): गेब्रियल बेंडर, शुयांग चेंग, मैथ्यू डेविन और क्वे ले