कंप्यूटर विज़न में एक वर्ष - 4 का भाग 2

- भाग दो: सेगमेंटेशन, सुपर-रेस / कोलोराइजेशन / स्टाइल ट्रांसफर, एक्शन रिकॉग्निशन

नोट: यदि आप अपने घर में रोबोट robots चाहते हैं, और यह देखना चाहते हैं कि बाद में इसके बजाय जल्द ही हो, तो कृपया हमारा बहुत छोटा सर्वेक्षण करें। आपकी प्रतिक्रियाएं हमारे सिम्युलेटेड पर्यावरण अनुसंधान और रोबोटिक्स परियोजनाओं को निर्देशित करने में मदद करती हैं sim

अपने समय के 3 मिनट दें: https://forms.gle/hPiP1p3sJ734Hzk19
बहुत धन्यवाद!
कंप्यूटर विज़न के क्षेत्र से संबंधित हमारी शोध टीम द्वारा हाल ही में प्रकाशित प्रकाशन से निम्नलिखित टुकड़ा लिया गया है। भाग एक और दो हमारी वेबसाइट के माध्यम से वर्तमान में उपलब्ध हैं, शेष भाग (तीन और चार) निकट भविष्य में जारी किए जाएंगे।

आने वाले हफ्तों में हमारी वेबसाइट पर पूर्ण प्रकाशन मुफ्त में उपलब्ध होगा, भाग १-२ अब उपलब्ध हैं: www.themtank.org

हम पाठकों को अपनी स्वयं की वेबसाइट के माध्यम से टुकड़ा देखने के लिए प्रोत्साहित करेंगे, क्योंकि हम रिपोर्ट को यथासंभव गतिशील बनाने के लिए एम्बेडेड सामग्री और आसान नौवहन कार्यों को शामिल करते हैं। हमारी वेबसाइट टीम के लिए कोई राजस्व नहीं उत्पन्न करती है और बस सामग्री को यथासंभव पाठकों के लिए आकर्षक और सहज बनाने का लक्ष्य रखती है। प्रस्तुति पर किसी भी प्रतिक्रिया का हमारे द्वारा तहे दिल से स्वागत किया जाता है!

जो भी आपके पसंदीदा चैनल हैं (और आपके दिल की सामग्री के लिए ताली!) के माध्यम से हमारे काम का पालन करें, साझा करें और समर्थन करें। किसी भी प्रश्न के साथ संपादकों से संपर्क करने या भविष्य के कार्यों में संभावित योगदान के बारे में देखने के लिए स्वतंत्र महसूस करें: info@themtank.com

विभाजन

सेंट्रल टू कंप्यूटर विजन सेगमेंटेशन की प्रक्रिया है, जो पूरी छवियों को पिक्सेल ग्रुपिंग में विभाजित करती है, जिन्हें तब लेबल और वर्गीकृत किया जा सकता है। इसके अलावा, शब्दार्थ विभाजन, छवि में प्रत्येक पिक्सेल की भूमिका को शब्दार्थ में समझने की कोशिश करते हुए आगे बढ़ता है। क्या यह एक बिल्ली, कार या कुछ अन्य प्रकार की कक्षा है? उदाहरण खंड वर्गों के विभिन्न उदाहरणों को विभाजित करके इसे और भी आगे ले जाता है उदा। तीन अलग-अलग रंगों के साथ तीन अलग-अलग कुत्तों को लेबल करना। यह वर्तमान में स्वायत्त ड्राइविंग प्रौद्योगिकी सुइट्स में कार्यरत कंप्यूटर विज़न अनुप्रयोगों में से एक बैराज है।

शायद, विभाजन के क्षेत्र में कुछ सबसे अच्छे सुधार एफएआईआर के सौजन्य से आते हैं, जो 2015 [46] से अपने डीपमास्क कार्य पर निर्माण करना जारी रखते हैं। डीपमास्क वस्तुओं के विभाजन के प्रारंभिक रूप के रूप में लगभग ’मास्क बनाता है। 2016 में, फेयर ने शार्पमास्क [47] पेश किया, जो डीपमास्क द्वारा प्रदान किए गए 'मास्क' को परिष्कृत करता है, विस्तार के नुकसान को ठीक करता है और सिमेंटिक विभाजन में सुधार करता है। इसके अतिरिक्त, मल्टीपैथनेट [48] प्रत्येक मुखौटा द्वारा परिसीमित वस्तुओं की पहचान करता है।

"सामान्य वस्तु आकार पर कब्जा करने के लिए, आपको एक उच्च-स्तरीय समझ होनी चाहिए कि आप क्या देख रहे हैं (डीपमास्क), लेकिन सही-स्तर पर वापस देखने के लिए आपको जो सीमाएँ देखनी पड़ती हैं, वे सभी तरह से पिक्सेल के नीचे हैं ( शार्पमास्क)। "- पिओट्र डॉलर, 2016. [49]
चित्रा 6: कार्रवाई में एफएआईआर तकनीकों का प्रदर्शन
नोट: उपरोक्त चित्र FAIR द्वारा नियोजित विभाजन तकनीकों को प्रदर्शित करते हैं। इनमें डीपमास्क, शार्पमास्क और मल्टीपाथनेट तकनीकों के अनुप्रयोग शामिल हैं जो उस क्रम में लागू होते हैं। यह प्रक्रिया विभिन्न दृश्यों में सटीक विभाजन और वर्गीकरण की अनुमति देती है। स्रोत: डॉलर (२०१६) [५०]

वीडियो प्रचार नेटवर्क [51] कुछ अतिरिक्त जानकारी के साथ संपूर्ण वीडियो अनुक्रम के माध्यम से, पहले फ्रेम पर सौंपे गए सटीक ऑब्जेक्ट मास्क को फैलाने के लिए एक सरल मॉडल बनाने का प्रयास करता है।

2016 में, शोधकर्ताओं ने पैमाने और स्थानीयकरण के उपरोक्त मुद्दों से निपटने के लिए वैकल्पिक नेटवर्क कॉन्फ़िगरेशन खोजने पर काम किया। दीपलैब [52] इसका एक ऐसा उदाहरण है, जो अर्थ संबंधी छवि विभाजन कार्यों के लिए उत्साहजनक परिणाम प्राप्त करता है। खोरेवा एट अल। (२०१६) [५३] डेपलैब के पहले के काम (२०१५) पर ​​निर्माण और एक कमजोर निगरानी प्रशिक्षण पद्धति का प्रस्ताव है जो पूरी तरह से पर्यवेक्षित नेटवर्क के लिए तुलनीय परिणाम प्राप्त करता है।

कंप्यूटर विजन ने एंड-टू-एंड नेटवर्क के उपयोग के माध्यम से उपयोगी जानकारी दृष्टिकोण के नेटवर्क साझाकरण को और अधिक परिष्कृत किया, जो वर्गीकरण के लिए कई ओमनी-दिशात्मक उपकेंद्रों की कम्प्यूटेशनल आवश्यकताओं को कम करता है। इस दृष्टिकोण का उपयोग कर दो प्रमुख कागजात हैं:

  • 100 परतें तिरुमिसु [54] एक पूरी तरह से सजा हुआ डेंसनेट है, जो हर परत को, हर दूसरी परत को, एक फीड-फॉरवर्ड फैशन में जोड़ता है। यह भी कम मापदंडों और प्रशिक्षण / प्रसंस्करण के साथ कई बेंचमार्क डेटासेट पर SOTA प्राप्त करता है।
  • पूरी तरह से संवैधानिक उदाहरण-जागरूक सिमेंटिक सेगमेंटेशन [55] उदाहरण के तौर पर मास्क की भविष्यवाणी और वर्गीकरण संयुक्त रूप से (दो उप-मुखौटे) करता है।
    COCO विभाजन चुनौती विजेता MSRA। 37.3% एपी।
    COCO चुनौती में 2015 में MSRAVC से 9.1% निरपेक्ष छलांग।

जबकि वास्तविक समय शब्दार्थ विभाजन के लिए एक DNN आर्किटेक्चर, Enet [56], इस श्रेणी का नहीं है, यह कम्प्यूटेशन लागतों को कम करने और मोबाइल उपकरणों तक अधिक पहुंच प्रदान करने के वाणिज्यिक गुणों को प्रदर्शित करता है।

हमारा काम जितना संभव हो उतना मूर्त सार्वजनिक अनुप्रयोगों से इन प्रगति से संबंधित होना चाहता है। इसे ध्यान में रखते हुए, 2016 में कुछ सबसे दिलचस्प स्वास्थ्य देखभाल अनुप्रयोग शामिल हैं;
  • कोलोनोस्कोपी छवियों के एंडोलुमिनल दृश्य विभाजन के लिए एक बेंचमार्क [57]
  • एमआरआई में सबकॉर्टल सेग्मेंटेशन के लिए 3 डी पूरी तरह से कंफर्टेबल नेटवर्क: एक बड़े पैमाने पर अध्ययन [58]
  • मस्तिष्क लेसियन डिटेक्शन और सेगमेंटेशन के लिए डेनोइसिंग ऑटोकेनोडर्स का उपयोग करते हुए अर्ध-पर्यवेक्षणीय शिक्षण [59]
  • 3 डी अल्ट्रासाउंड छवि विभाजन: एक सर्वेक्षण [60]
  • एक पूरी तरह से संवेदी तंत्रिका नेटवर्क आधारित संरचित भविष्यवाणी दृष्टिकोण रेटिना वेसल सेगमेंटेशन [61] की ओर
  • ग्लियोब्लास्टोमा सेगमेंटेशन के लिए 3-डी संवेदी तंत्रिका नेटवर्क [62]

हमारे पसंदीदा अर्ध-चिकित्सा विभाजन अनुप्रयोगों में से एक है फ्यूजननेट [63] - कनेक्टोमिक्स में छवि विभाजन के लिए एक गहरी पूरी तरह से अवशिष्ट संलयन तंत्रिका नेटवर्क [64] SOTA इलेक्ट्रॉन माइक्रोस्कोपी (EM) विभाजन विधियों के खिलाफ बेंचमार्क।

सुपर-रिज़ॉल्यूशन, स्टाइल ट्रांसफर और कोलोराइज़ेशन

कंप्यूटर विज़न में सभी शोध मशीनों की छद्म-संज्ञानात्मक क्षमताओं का विस्तार करने का काम नहीं करते हैं, और अक्सर तंत्रिका नेटवर्क की अक्षमता, साथ ही साथ अन्य एमएल तकनीक, सार्वजनिक अंतरिक्ष में फैलने वाले कई अन्य उपन्यास अनुप्रयोगों के लिए खुद को उधार देते हैं। सुपर-रिज़ॉल्यूशन, स्टाइल ट्रांसफर और कोलोराइज़ेशन में पिछले साल की प्रगति ने हमारे लिए उस स्थान पर कब्जा कर लिया।

सुपर-रिज़ॉल्यूशन एक कम रिज़ॉल्यूशन समकक्ष से एक उच्च रिज़ॉल्यूशन छवि का अनुमान लगाने की प्रक्रिया को संदर्भित करता है, और विभिन्न आवर्धन पर छवि सुविधाओं की भविष्यवाणी भी करता है, कुछ ऐसा जो मानव मस्तिष्क लगभग आसानी से कर सकता है। मूल रूप से सुपर-रिज़ॉल्यूशन बाइसिक-इंटरपोल और निकटतम पड़ोसियों जैसी सरल तकनीकों द्वारा किया गया था। वाणिज्यिक अनुप्रयोगों के संदर्भ में, स्रोत गुणवत्ता से उपजी कम-रिज़ॉल्यूशन की बाधाओं को दूर करने की इच्छा और style सीएसआई मियामी ’की शैली की छवि में वृद्धि ने क्षेत्र में अनुसंधान को प्रेरित किया है। यहाँ वर्ष के कुछ अग्रिम और उनके संभावित प्रभाव दिए गए हैं:

  • न्यूरल एन्हांस [65] एलेक्स जे। चैंपीडविंड के दिमाग की उपज है और इसके सुपर-रिज़ॉल्यूशन विधि को प्राप्त करने के लिए चार अलग-अलग शोध पत्रों से दृष्टिकोण जोड़ता है।

2016 में रियल-टाइम वीडियो सुपर रिज़ॉल्यूशन को दो उल्लेखनीय उदाहरणों में भी प्रयास किया गया था; [६६], [६ 66]

  • RAISR: Google की रैपिड और सटीक छवि सुपर-रिज़ॉल्यूशन [68] कम-रिज़ॉल्यूशन और उच्च-रिज़ॉल्यूशन वाली छवि युग्मों के साथ प्रशिक्षण फ़िल्टर द्वारा तंत्रिका नेटवर्क दृष्टिकोण की महंगी मेमोरी और गति आवश्यकताओं से बचाती है। RAISR, एक सीखने-आधारित रूपरेखा के रूप में, प्रतिस्पर्धात्मक एल्गोरिदम की तुलना में तेज़ी के दो क्रम हैं और तंत्रिका नेटवर्क-आधारित दृष्टिकोणों की तुलना में स्मृति की न्यूनतम आवश्यकताएं हैं। इसलिए सुपर-रिज़ॉल्यूशन व्यक्तिगत उपकरणों के लिए विस्तार योग्य है। यहाँ एक शोध ब्लॉग उपलब्ध है। [69]
चित्र 7: सुपर-रिज़ॉल्यूशन SRGAN उदाहरण
नोट: बाएं से दाएं: बाइसिक इंटरपोलेशन (फ़ोकस के लिए उद्देश्य सबसे खराब प्रदर्शन), डीएसई के लिए अनुकूलित डीप अवशिष्ट नेटवर्क, मानव अवशिष्ट के प्रति अधिक संवेदनशील, मूल उच्च रिज़ॉल्यूशन (एचआर) छवि के प्रति अधिक संवेदनशील नुकसान के लिए अनुकूलित गहरे अवशिष्ट जनन संबंधी नेटवर्क। शोर अनुपात (PSNR) और संरचनात्मक समानता (SSIM) के अनुरूप शिखर संकेत दो कोष्ठक में दिखाए गए हैं। [४ एक्स अपस्कलिंग] पाठक छवि की चिकनाई बनाम अधिक यथार्थवादी ठीक विवरण के बीच अंतर देखने के लिए बीच की दो छवियों (SRResNet और SRGAN) पर ज़ूम करना चाह सकता है।
स्रोत: लेडिग एट अल। (2017) [70]

जनरेटिव एडवरसरील नेटवर्क्स (GANs) का उपयोग सुपर-रिज़ॉल्यूशन के लिए वर्तमान SOTA का प्रतिनिधित्व करता है:

  • SRGAN [71] सार्वजनिक बेंचमार्क पर भारी-भरकम छवियों से फोटो-यथार्थवादी बनावट प्रदान करता है, जो सुपर-हल और मूल फोटो-यथार्थवादी छवियों के बीच अंतर करने के लिए प्रशिक्षित एक भेदभावपूर्ण नेटवर्क का उपयोग करता है।

गुणात्मक रूप से SRGAN सर्वश्रेष्ठ प्रदर्शन करता है, हालांकि SRResNet पीक-सिग्नल-टू-शोर-अनुपात (PSNR) मीट्रिक के साथ सबसे अच्छा प्रदर्शन करता है, लेकिन SRGAN को महीन बनावट विवरण प्राप्त होता है और सर्वश्रेष्ठ मीन ओपिनियन स्कोर (MOS) प्राप्त होता है। "हमारे ज्ञान के अनुसार, यह 4 × अपसंस्कृति कारकों के लिए फोटो-यथार्थवादी प्राकृतिक छवियों का सामना करने में सक्षम पहला ढांचा है।" [72] सभी पिछले दृष्टिकोण बड़े अपकर्षक कारकों पर महीन बनावट विवरण को पुनर्प्राप्त करने में विफल होते हैं।

  • इमेज सुपर-रिज़ॉल्यूशन [73] के लिए संशोधित एमएपी इंजेक्शन, एक कन्वेंशनल न्यूरल नेटवर्क का उपयोग करके अधिकतम पोस्टीरियर (एमएपी) की गणना के लिए एक विधि प्रस्तावित करता है। हालांकि, उनका शोध अनुकूलन के लिए तीन दृष्टिकोण प्रस्तुत करता है, जिनमें से सभी गण वर्तमान में वास्तविक छवि डेटा पर बेहतर प्रदर्शन करते हैं।
चित्र 8: निकुलिन और नोवाक से स्टाइल ट्रांसफर
नोट: एक बिल्ली की तस्वीर (मूल शीर्ष बाएं) में विभिन्न शैलियों को स्थानांतरित करना।
स्रोत: निकुलिन और नोवाक (2016)

निस्संदेह, स्टाइल ट्रांसफ़र ने तंत्रिका नेटवर्क के एक उपन्यास उपयोग का प्रतीक है, जो विशेष रूप से पिछले साल की फेसबुक एकीकरण और प्रिस्मा [74] और आर्टोमैटिक्स [75] जैसी कंपनियों के माध्यम से सार्वजनिक डोमेन में डाला है। स्टाइल ट्रांसफर एक पुरानी तकनीक है लेकिन 2015 में न्यूरल एल्गोरिदम ऑफ़ आर्टिस्टिक स्टाइल [76] के प्रकाशन के साथ एक तंत्रिका नेटवर्क में परिवर्तित हो गई। तब से, स्टाइल ट्रांसफ़र की अवधारणा का विस्तार निकुलिन और नोवाक [77] द्वारा किया गया और वीडियो [78] पर भी लागू किया गया, जैसा कि कंप्यूटर विज़न के भीतर सामान्य प्रगति है।

चित्र 9: स्टाइल ट्रांसफर के अन्य उदाहरण
नोट: शीर्ष पंक्ति (बाएं से दाएं) उस कलात्मक शैली का प्रतिनिधित्व करती है जो मूल चित्रों पर ट्रांसपोज़ होती है जो पहले कॉलम (वुमन, गोल्डन गेट ब्रिज और मीडो एनवायरनमेंट) में प्रदर्शित होती हैं। सशर्त उदाहरण सामान्यीकरण का उपयोग करके एक एकल शैली हस्तांतरण नेटवर्क एक साथ 32 शैली पर कब्जा कर सकता है, जिनमें से पांच यहां प्रदर्शित किए गए हैं। स्रोत पेपर के परिशिष्ट में उपलब्ध चित्रों का पूरा सूट। यह काम इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन (ICLR) 2017 में होगा।
स्रोत: डुमौलिन एट अल। (2017, पी। 2) [79]

एक बार दृश्य के रूप में एक विषय के रूप में शैली स्थानांतरण काफी सहज है; एक छवि लें और एक अलग छवि की शैलीगत विशेषताओं के साथ इसकी कल्पना करें। उदाहरण के लिए, एक प्रसिद्ध पेंटिंग या कलाकार की शैली में। इस साल फेसबुक ने Caffe2Go को जारी किया, [80] उनकी गहन शिक्षण प्रणाली जो मोबाइल उपकरणों में एकीकृत है। Google ने कुछ दिलचस्प काम भी जारी किए जिनमें पूरी तरह से अद्वितीय छवि शैलियों को बनाने के लिए कई शैलियों को मिश्रण करने की कोशिश की गई: अनुसंधान ब्लॉग [81] और पूर्ण पेपर [82]।

मोबाइल एकीकरण के अलावा, स्टाइल ट्रांसफर में गेम एसेट्स के निर्माण में अनुप्रयोग हैं। हमारी टीम के सदस्यों ने हाल ही में आर्टोमैटिक्स के संस्थापक और सीटीओ, एरिक रिसेर द्वारा एक प्रस्तुति देखी, जिन्होंने गेम (बनावट म्यूटेशन, आदि) में सामग्री निर्माण के लिए तकनीक के उपन्यास आवेदन पर चर्चा की और इसलिए, एक पारंपरिक बनावट कलाकार के काम को नाटकीय रूप से कम करता है। ।

Colourisation मोनोक्रोम छवियों को नए पूर्ण-रंग संस्करणों में बदलने की प्रक्रिया है। मूल रूप से यह उन लोगों द्वारा मैन्युअल रूप से किया गया था जो प्रत्येक छवि में विशिष्ट पिक्सेल का प्रतिनिधित्व करने के लिए श्रमसाध्य रूप से रंगों का चयन करते हैं। 2016 में, मानव-केंद्रित colourisation प्रक्रिया के यथार्थवाद संकेत की उपस्थिति को बनाए रखते हुए इस प्रक्रिया को स्वचालित करना संभव हो गया। हालांकि मनुष्य किसी दिए गए दृश्य के असली रंगों का सही-सही प्रतिनिधित्व नहीं कर सकते हैं, उनका वास्तविक विश्व ज्ञान एक तरह से रंगों के अनुप्रयोग की अनुमति देता है जो छवि के अनुरूप है और एक अन्य व्यक्ति ने कहा कि छवि को देख रहा है।

Colourisation की प्रक्रिया इस मायने में दिलचस्प है कि नेटवर्क ऑब्जेक्ट लोकेशन, टेक्सचर और एनवायरनमेंट की अपनी समझ के आधार पर छवियों के लिए सबसे अधिक संभावित रंग प्रदान करता है, उदा। यह पता चलता है कि त्वचा गुलाबी है और आकाश नीला है।

हमारी राय में, वर्ष के सबसे प्रभावशाली कार्यों में से तीन इस प्रकार हैं:
  • झांग एट अल। एक ऐसी विधि का उत्पादन किया जो 32% परीक्षणों पर मनुष्यों को सफलतापूर्वक मूर्ख बनाने में सक्षम थी। उनकी कार्यप्रणाली एक "colourisation Turing test" के समान है। [83]
  • लार्सन एट अल। [[४] हिस्टोग्राम आकलन के लिए डीप लर्निंग का उपयोग करके अपनी छवि कोलाइज़रेशन सिस्टम को पूरी तरह से स्वचालित कर देता है।
  • अंत में, लिज़ुका, सिमो-सेरा और इशीकावा [85] एक Colourisation मॉडल प्रदर्शित करते हैं जो CNNs पर भी आधारित है। काम ने मौजूदा SOTA को बेहतर बना दिया, हम [टीम] को लगता है कि यह काम गुणात्मक रूप से सबसे अच्छा है, सबसे यथार्थवादी प्रतीत होता है। चित्रा 10 तुलना प्रदान करता है, हालांकि छवि को लिज़ुका एट अल से लिया गया है।
चित्रा 10: Colourisation Research की तुलना
नोट: ऊपर से नीचे तक - कॉलम में मूल मोनोक्रोम छवि इनपुट होता है जो बाद में विभिन्न तकनीकों के माध्यम से रंगीन होता है। शेष कॉलम 2016 में अन्य प्रमुख कोलोराइजेशन रिसर्च द्वारा उत्पन्न परिणाम प्रदर्शित करते हैं। जब बाएं से दाएं देखा जाता है, तो ये लार्सन एट अल हैं। [[४] २०१६ (स्तंभ दो), झांग एट अल। [[३] २०१६ (कॉलम तीन), और लिज़ुका, सिमो-सेरा और इशीकावा। [[५] २०१६, लेखकों (स्तंभ चार) द्वारा

"इसके अलावा, हमारी वास्तुकला CNN पर आधारित अधिकांश मौजूदा दृष्टिकोणों के विपरीत, किसी भी रिज़ॉल्यूशन की छवियों को संसाधित कर सकती है।"

एक परीक्षण में यह देखने के लिए कि उनका रंग कितना स्वाभाविक था, उपयोगकर्ताओं को उनके मॉडल से एक यादृच्छिक छवि दी गई और पूछा गया, "क्या यह छवि आपके लिए स्वाभाविक है?"

उनके दृष्टिकोण ने 92.6% हासिल किया, बेसलाइन ने लगभग 70% हासिल किया और जमीनी सच्चाई (वास्तविक रंगीन फोटो) को 97.7% प्राकृतिक माना गया।

क्रिया मान्यता

एक्शन रिकॉग्निशन का कार्य किसी दिए गए वीडियो फ्रेम के भीतर एक्शन का वर्गीकरण दोनों को संदर्भित करता है, और हाल ही में, एल्गोरिदम जो कि कार्रवाई होने से पहले केवल कुछ फ्रेम दिए गए इंटरैक्शन के संभावित परिणामों की भविष्यवाणी कर सकते हैं। इस संबंध में हम कंप्यूटर विज़न के अन्य क्षेत्रों की तरह ही एल्गोरिदम के फ़ैसलों में संदर्भ के लिए हाल के शोध के प्रयास को देखते हैं। इस अंतरिक्ष में कुछ प्रमुख कागजात हैं:

  • एक्शन रिकॉग्निशन के लिए लंबी अवधि के टेम्पोरल कन्वर्सेशन [87] मानव क्रियाओं के अनुपात-लौकिक संरचना का लाभ उठाते हैं, अर्थात् विशेष आंदोलन और अवधि, सीएनएन संस्करण का उपयोग करके कार्यों को सही ढंग से पहचानने के लिए। सीएनएन द्वारा लंबी अवधि के कार्यों के उप-इष्टतम लौकिक मॉडलिंग को दूर करने के लिए, लेखकों ने कार्रवाई मान्यता की सटीकता में सुधार के लिए दीर्घकालिक लौकिक संकल्प (LTC-CNN) के साथ एक तंत्रिका नेटवर्क का प्रस्ताव दिया है। सीधे शब्दों में कहें, एलटीसी क्रियाओं को पहचानने के लिए वीडियो के बड़े हिस्से को देख सकता है। उनका दृष्टिकोण 3D CNNs का उपयोग करता है और विस्तारित करता है at एक पूर्ण अस्थायी पैमाने पर कार्रवाई प्रतिनिधित्व को सक्षम करने के लिए ’।

"हम मानव कार्रवाई मान्यता UCF101 (92.7%) और HMDB51 (67.2%) के लिए दो चुनौतीपूर्ण बेंचमार्क पर अत्याधुनिक परिणामों की रिपोर्ट करते हैं।"

  • वीडियो एक्शन रिकॉग्निशन [88] के लिए स्पीतिओटेम्पोरल अवशिष्ट नेटवर्क एक्शन रिकग्निशन के कार्य के लिए दो स्ट्रीम सीएनएन की भिन्नता लागू करते हैं, जो पारंपरिक सीएनएन दृष्टिकोण और हाल ही में लोकप्रिय रेजिडेंशल नेटवर्क (रेसनेट) दोनों से तकनीकों को जोड़ती है। दो धारा दृष्टिकोण दृश्य प्रांतस्था के कामकाज पर एक तंत्रिका विज्ञान परिकल्पना से अपनी प्रेरणा लेता है, अर्थात् अलग-अलग रास्ते ऑब्जेक्ट आकृति / रंग और आंदोलन को पहचानते हैं। लेखक दो CNN धाराओं के बीच अवशिष्ट कनेक्शनों को इंजेक्ट करके ResNets के वर्गीकरण लाभों को जोड़ते हैं।

“प्रत्येक स्ट्रीम शुरू में अपने आप ही वीडियो मान्यता प्रदान करती है और अंतिम वर्गीकरण के लिए, सॉफ्टमैक्स स्कोर देर से संलयन द्वारा संयुक्त होते हैं। आज तक, यह दृष्टिकोण विशेष रूप से सीमित प्रशिक्षण डेटा के साथ, कार्रवाई की मान्यता के लिए गहन सीखने को लागू करने का सबसे प्रभावी तरीका है। अपने काम में हम सीधे छवि रूपांतरण को 3D आर्किटेक्चर में परिवर्तित करते हैं और दो-स्ट्रीम बेसलाइन पर प्रदर्शन में बहुत सुधार करते हैं। ”- UCF101 पर 94% और HMDB51 पर 70.6%। Feichtenhofer एट अल। पारंपरिक सुधार वाले घने प्रक्षेपवक्र (iDT) के तरीकों में सुधार किया और दोनों तकनीकों के उपयोग के माध्यम से बेहतर परिणाम उत्पन्न किए।

  • अनबैलिड वीडियो [89] से विज़ुअल रिप्रजेंटेशन को प्रदर्शित करना एक दिलचस्प पेपर है, हालांकि सख्ती से एक्शन वर्गीकरण नहीं। कार्यक्रम उस कार्रवाई की भविष्यवाणी करता है जो एक कार्रवाई से पहले एक सेकंड तक वीडियो फ्रेम का एक क्रम दिए जाने की संभावना है। यह दृष्टिकोण पिक्सेल-बाय-पिक्सेल वर्गीकरण के बजाय दृश्य अभ्यावेदन का उपयोग करता है, जिसका अर्थ है कि प्रोग्राम, बिना लेबल के डेटा को संचालित कर सकता है, जो कि गहरे तंत्रिका नेटवर्क की विशेषता सीखने के गुणों का लाभ उठाता है। [90]

“हमारे दृष्टिकोण के पीछे महत्वपूर्ण विचार यह है कि हम भविष्य में छवियों के दृश्य प्रतिनिधित्व की भविष्यवाणी करने के लिए गहरे नेटवर्क को प्रशिक्षित कर सकते हैं। दृश्य प्रतिनिधित्व एक आशाजनक भविष्यवाणी लक्ष्य है क्योंकि वे पिक्सेल की तुलना में उच्च सिमेंटिक स्तर पर छवियों को सांकेतिक शब्दों में बदलना करते हैं फिर भी गणना करने के लिए स्वचालित हैं। फिर हम वस्तुओं और कार्यों को प्रत्याशित करने के लिए हमारे पूर्वानुमानित प्रतिनिधित्व पर मान्यता एल्गोरिदम लागू करते हैं।

थुमोस एक्शन रिकॉग्निशन चैलेंज [91] के आयोजकों ने पिछले साल की संख्या से एक्शन रिकॉग्निशन के सामान्य दृष्टिकोण का वर्णन करते हुए एक पेपर जारी किया। पेपर 2013-2015 से चैलेंजेस का एक हिस्सा भी प्रदान करता है, चुनौती और विचारों के लिए भविष्य के निर्देश कंप्यूटर को एक्शन रिकॉग्निशन के माध्यम से वीडियो के बारे में अधिक समग्र समझ प्रदान करता है। हम उम्मीद करते हैं कि थमोस एक्शन रिकॉग्निशन चैलेंज 2017 में इसके (प्रतीत होता है) अप्रत्याशित अंतराल के बाद वापस आएगा।

अगली किस्त के लिए माध्यम पर हमारी प्रोफाइल का पालन करें - 4 का भाग 3: दुनिया की एक 3 डी समझ की ओर।
कृपया टिप्पणी अनुभाग में सभी प्रतिक्रियाएं और सुझाव देने के लिए स्वतंत्र महसूस करें और हम जितनी जल्दी हो सके वापस कर देंगे। वैकल्पिक रूप से, आप हमसे सीधे संपर्क कर सकते हैं: info@themtank.com

पूरा टुकड़ा यहां उपलब्ध है: www.themtank.org/a-year-in-computer-vision

बहुत धन्यवाद,

द एम टैंक

उपस्थिति के क्रम में संदर्भ

[४६] पिनहेइरो, कोलोबर्ट और डॉलर। 2015: खंड वस्तु अभ्यर्थियों को सीखना। [ऑनलाइन] arXiv: 1506.06204 उपलब्ध: arXiv: 1506.06204v2

[४ et] पिनहीरो एट अल। 2016. वस्तु खंडों को परिष्कृत करना सीखना। [ऑनलाइन] arXiv: 1603.08695। उपलब्ध: arXiv: 1603.08695v2

[४ Z] ज़ागोरयुको, २०१६। ऑब्जेक्ट डिटेक्शन के लिए एक मल्टीपाथ नेटवर्क। [ऑनलाइन] arXiv: 1604.02135v2 उपलब्ध: arXiv: 1604.02135v2

[४ ९] डॉलर, पी। २०१६. लर्निंग टू सेगमेंट। [ब्लॉग] FAIR उपलब्ध: https://research.fb.com/learning-to-segment/

[५०] डॉलर, पी। २०१६। SharpMask के साथ छवियों का विभाजन और परिशोधन। [ऑनलाइन] फेसबुक कोड। उपलब्ध: https://code.facebook.com/posts/561187904071636/selecting-and-refining-images-with-sharpmask/

[५१] जंपनी एट अल। 2016. वीडियो प्रसार नेटवर्क। [ऑनलाइन] arXiv: 1612.05478 उपलब्ध: arXiv: 1612.05478v2

[५२] चेन एट अल।, २०१६। डीपलैब: डीप कन्वेंशन नेट्स, एट्रोस कनवल्शन और पूरी तरह से कनेक्टेड सीआरएफ के साथ सिमेंटिक इमेज सेगमेंटेशन। [ऑनलाइन] arXiv: 1606.00915 उपलब्ध: arXiv: 1606.00915v1

[५३] खोरेवा एट अल। 2016. सरल करता है यह: कमजोर पर्यवेक्षण और अर्थ विभाजन। [ऑनलाइन] arXiv: 1603.07485v2 उपलब्ध: arXiv: 1603.07485v2

[५४] जेगौ एट अल। 2016. द वन हंडर्स लेयर्स तिरमिसु: सिमेंटिक सेगमेंटेशन के लिए पूरी तरह से कॉन्सेप्टिव डेंसनेट्स। [ऑनलाइन] arXiv: 1611.09326v2 उपलब्ध: arXiv: 1611.09326v2

[५५] ली एट अल। 2016. पूरी तरह से संस्थागत उदाहरण-जागरूक अर्थ सेगमेंटेशन। [ऑनलाइन] arXiv: 1611.07709v1। उपलब्ध: arXiv: 1611.07709v1

[५६] पसजेक एट अल। 2016. एनेट: रीयल-टाइम सिमेंटिक सेगमेंट के लिए एक डीप न्यूरल नेटवर्क आर्किटेक्चर। [ऑनलाइन] arXiv: 1606.02147v1 उपलब्ध: arXiv: 1606.02147v1

[५que] वाज़केज़ एट अल। 2016. कोलोनोस्कोपी छवियों के एंडोलुमिनल सीन सेगमेंटेशन के लिए एक बेंचमार्क। [ऑनलाइन] arXiv: 1612.00799 उपलब्ध: arXiv: 1612.00799v1

[५ al] डॉल्ज एट अल। 2016. एमआरआई में उप-खंड विभाजन के लिए 3 डी पूरी तरह से दृढ़ नेटवर्क। एक बड़े पैमाने पर अध्ययन। [ऑनलाइन] arXiv: 1612.03925 उपलब्ध: arXiv: 1612.03925v1

[५ ९] एलेक्स एट अल। 2017. ब्रेन लेसियन डिटेक्शन और सेगमेंटेशन के लिए डेनोइजिंग ऑटोएन्कोडर्स का उपयोग करते हुए अर्ध-पर्यवेक्षणीय शिक्षण। [ऑनलाइन] arXiv: 1611.08664। उपलब्ध: arXiv: 1611.08664v4

[६०] मोजाफ़री और ली। 2016. 3 डी अल्ट्रासाउंड छवि विभाजन: एक सर्वेक्षण। [ऑनलाइन] arXiv: 1611.09811 उपलब्ध: arXiv: 1611.09811v1

[६१] दासगुप्ता और सिंह। 2016. एक पूरी तरह से संवेदी तंत्रिका नेटवर्क आधारित संरचित भविष्यवाणी दृष्टिकोण रेटिना वेसल सेगमेंट की ओर। [ऑनलाइन] arXiv: 1611.02064 उपलब्ध: arXiv: 1611.02064v2

[६२] यी एट अल। 2016. ग्लियोब्लास्टोमा सेगमेंटेशन के लिए 3-डी कन्वेंशनल न्यूरल नेटवर्क। [ऑनलाइन] arXiv: 1611.04534 उपलब्ध: arXiv: 1611.04534v1

[६३] क्वान एट अल। 2016. फ्यूजननेट: कनेक्टोमिक्स में छवि विभाजन के लिए एक पूरी तरह से अवशिष्ट अवशिष्ट तंत्रिका नेटवर्क। [ऑनलाइन] arXiv: 1612.05360 उपलब्ध: arXiv: 1612.05360v2

[६४] कनेक्टोमिक्स एक जीव के तंत्रिका तंत्र, यानी न्यूरॉन्स और उनके कनेक्शन के भीतर सभी कनेक्शनों की मैपिंग को संदर्भित करता है।

[६५] चैंपियन, ए.जे. 2017. तंत्रिका संवर्धन (नवीनतम प्रतिबद्ध 30/11/2016)। [ऑनलाइन] जीथुब। उपलब्ध: https://github.com/alexjc/neural-enhance [एक्सेस किया गया: 11/02/2017]

[६६] कैबलेरो एट अल। 2016. रियल-टाइम वीडियो सुपर-रिज़ॉल्यूशन विद स्पाट-टेम्पोरल नेटवर्क्स एंड मोशन कॉम्पेंसेशन। [ऑनलाइन] arXiv: 1611.05250। उपलब्ध: arXiv: 1611.05250v1

[६]] शि एट अल। 2016. वास्तविक समय एकल छवि और वीडियो सुपर-रिज़ॉल्यूशन एक कुशल उप-पिक्सेल रूपांतरण तंत्रिका नेटवर्क का उपयोग करना। [ऑनलाइन] arXiv: 1609.05158 उपलब्ध: arXiv: 1609.05158v2

[६ al] रोमानो एट अल। 2016. RAISR: रैपिड और सटीक छवि सुपर रिज़ॉल्यूशन। [ऑनलाइन] arXiv: 1606.01299 उपलब्ध: arXiv: 1606.01299v3

[६ ९] मिलनफर, पी। २०१६। RAISR शार्प इमेजेज विद मशीन लर्निंग। [ब्लॉग] गूगल रिसर्च ब्लॉग। उपलब्ध: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [अभिगमन: 20/03/2017]।

[Id०] ibid

[Et१] लेडिग एट अल। 2017. फोटो-रियलिस्टिक सिंगल इमेज सुपर-रिज़ॉल्यूशन एक जनरेशनल एडवरसैरियल नेटवर्क का उपयोग करना। [ऑनलाइन] arXiv: 1609.04802 उपलब्ध: arXiv: 1609.04802v3

[[२] ibid

[Nd३] सोंडेर्बी एट अल। 2016. इमेज सुपर-रिज़ॉल्यूशन के लिए एमओपी इंजेक्शन। [ऑनलाइन] arXiv: 1610.04490 उपलब्ध: arXiv: 1610.04490v1

[A४] प्रिज्मा। 2017. [वेबसाइट] प्रिज्मा। उपलब्ध: https://prisma-ai.com/ [पहुँचा: 01/04/2017]।

[At५] आर्टोमैटिक्स। 2017. [वेबसाइट] आर्टोमैटिक्स। उपलब्ध: https://services.artomatix.com/ [पहुँचा: 01/04/2017]।

[Ys६] गैटिस एट अल। 2015 कलात्मक शैली का एक तंत्रिका एल्गोरिदम। [ऑनलाइन] arXiv: 1508.06576 उपलब्ध: arXiv: 1508.06576v2

[& Nov] निकुलिन और नोवाक। 2016. कलात्मक शैली के तंत्रिका एल्गोरिथम की खोज। [ऑनलाइन] arXiv: 1602.07188 उपलब्ध: arXiv: 1602.07188v2

[Et al] रुडर एट अल। 2016. वीडियो के लिए कलात्मक शैली हस्तांतरण। [ऑनलाइन] arXiv: 1604.08610। उपलब्ध: arXiv: 1604.08610v2

[Id ९] ibid

[V०] जिया और वाजदा। 2016. अपने हाथ की हथेली में वास्तविक समय एआई वितरित करना। [ऑनलाइन] फेसबुक कोड। उपलब्ध: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [एक्सेस किया गया: 20/01/2017]।

[In१] दुमौलिन एट अल। 2016. सुपरचार्जिंग स्टाइल ट्रांसफर। [ऑनलाइन] गूगल रिसर्च ब्लॉग। उपलब्ध: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [एक्सेस किया गया: 20-20/2017]।

[In२] दुमौलिन एट अल। 2017. कलात्मक शैली के लिए एक सीखा प्रतिनिधित्व। [ऑनलाइन] arXiv: 1610.07629 उपलब्ध: arXiv: 1610.07629v5

[Al३] जांग एट अल। 2016. रंगीन छवि रंगकरण। [ऑनलाइन] arXiv: 1603.08511 उपलब्ध: arXiv: 1603.08511v5

[Son४] लार्सन एट अल। 2016. स्वचालित रंगीकरण के लिए सीखना प्रतिनिधित्व। [ऑनलाइन] arXiv: 1603.06668 उपलब्ध: arXiv: 1603.06668v2

[Uka५] लिज़ुका, सिमो-सेरा और इशीकावा। 2016. लेट बी कलर !: साइंटिफिक क्लासिफिकेशन के साथ ऑटोमैटिक इमेज कलराइजेशन के लिए ग्लोबल एंड लोकल इमेज प्राइजर्स की जॉइंट एंड-टू-एंड लर्निंग। [ऑनलाइन] ग्राफिक्स पर ACM लेनदेन (SIGGRAPH का प्रोक।), ३५ (४): ११०। उपलब्ध: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[Id६] ibid

[Et [] वारोल एट अल। 2016. कार्रवाई मान्यता के लिए दीर्घकालिक अस्थायी संकल्प। [ऑनलाइन] arXiv: 1604.04494 उपलब्ध: arXiv: 1604.04494v1

[Ten [] फेचटेनहोफर एट अल। 2016. वीडियो एक्शन रिकॉग्निशन के लिए स्पीतिओटेम्पोरल अवशिष्ट नेटवर्क। [ऑनलाइन] arXiv: 1611.02155 उपलब्ध: arXiv: 1611.02155v1

[Rick ९] वोंड्रिक एट अल। 2016. अनलॅबल्ड वीडियो से विजुअल रिप्रेजेंटेशन की आशंका। [ऑनलाइन] arXiv: 1504.08023 उपलब्ध: arXiv: 1504.08023v2

[९ ०] कोनर-सीमन्स, ए।, गॉर्डन, आर। २०१६। भविष्य की भविष्यवाणी करने के लिए शिक्षण मशीनें। [ऑनलाइन] MIT NEWS उपलब्ध: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Accessed: 03/02/2017]।

[९ १] विचार एट अल। 2016. वीडियो "जंगली में" के लिए मान्यता मान्यता पर चुनौती। [ऑनलाइन] arXiv: 1604.06182 उपलब्ध: arXiv: 1604.06182v1