तंत्रिका सर्वश्रेष्ठ मित्र: एक तकनीकी व्याख्या

tl; dr इस पोस्ट में, मैं कागज के लिए एक तकनीकी व्याख्या देता हूं "न्यूरल बेस्ट-फ्रेंड्स: स्पार्स क्रॉस-डोमेन कॉरेस्पोंडेंस।"

मनुष्य विभिन्न वस्तुओं के बीच समान ज्यामितीय और अर्थ संबंधी विशेषताओं की पहचान कर सकता है। उदाहरण के लिए, दो हाथियों की छवि को देखते हुए, हम (और हमारे साजिशकर्ता) हाथी 2 के ट्रंक का प्रतिनिधित्व करने वाले बिंदु को हाथी 2 के ट्रंक का प्रतिनिधित्व कर सकते हैं।

एक बिल्ली से एक शेर तक पत्राचार मानचित्रण अंक। points

एक अधिक जटिल समस्या क्रॉस-डोमेन पत्राचार है। विभिन्न श्रेणियों (पूर्व हाउस बिल्ली और शेर) से वस्तुओं की छवियों की एक जोड़ी को देखते हुए, क्या हम महत्वपूर्ण सिमेंटिक या ज्यामितीय विशेषताओं (यानी कान, मुंह, आंखें, आदि) का प्रतिनिधित्व करने वाले और मानचित्र बिंदुओं का पता लगा सकते हैं?

इस प्रकार, इस पत्र के लेखकों ने एक कम्प्यूटेशनल मॉडल बनाने की मांग की जिसने क्रॉस-डोमेन पत्राचार हासिल किया।

उच्च-स्तरीय सारांश:

एक गहरी पूर्व प्रशिक्षित नेटवर्क छवियों के जोड़े से उपयोगी पदानुक्रम की जानकारी निकालता है। पदानुक्रम में प्रत्येक स्तर में (अंतिम से पहली तक), प्रत्येक न्यूरॉन को अन्य पदानुक्रम से एक सबसे अच्छा दोस्त सौंपा गया है, उसी क्षेत्र में एक न्यूरॉन और अन्य छवि से परत है जो फीचर स्पेस में एक समान स्थान साझा करता है। इन न्यूरॉन्स पर कब्जा करने वाली जगह को कुछ मनमाना आधार रेखा से ऊपर सक्रियता परिमाण द्वारा फ़िल्टर करके पिछली परत तक फैलाया जाता है।

प्रत्येक परत के लिए प्रक्रिया को दोहराया जाता है, जब तक कि मूल इनपुट छवि तक नहीं पहुंच जाता है। इस पुनरावर्ती बेस्ट-ब्वॉय बैक-प्रॉप प्रक्रिया के आधार पर प्राप्त अंकों की जोड़ियों को केएनएन तकनीक द्वारा फ़िल्टर किया जाता है, और सभी परतों में सक्रियता के कुल मूल्य के आधार पर रैंक किया जाता है। ये जोड़े अन्य अत्याधुनिक तकनीकों की तुलना में उच्च पत्राचार सटीकता दिखाते हैं।

(ए) नेटवर्क के प्रत्येक स्तर में, मजबूत सक्रिय तंत्रिका सर्वश्रेष्ठ दोस्त हाइलाइट किए जाते हैं। (b) पिछली परत में एक संबद्ध परत से उसके संबंधित ग्रहणशील क्षेत्र से मैपिंग की सुविधा। थ्रेसहोल्ड सक्रियण से गुजरने वाले केवल मुख्य क्षेत्रों को पिछली परत से चुना जाता है। a

निम्न-स्तरीय विवरण

  1. गहन तंत्रिका नेटवर्क

डीप कनफ्यूजनियल न्यूरल नेटवर्क इमेजेसेंट से पोजिशन और उपस्थिति तक सार्थक अर्थ संबंधी जानकारी निकाल सकते हैं। इस पत्र में, लेखक वीजीजी -19, एक 19-परत नेटवर्क का उपयोग करते हैं, जो कि इमेजनेट (जटिल छवियों का एक बड़ा डेटाबेस - जो कंप्यूटर नेटवर्क के खिलाफ सभी नेटवर्क की तुलना में मानक है) पर पहले से प्रशिक्षित है। नेटवर्क की प्रत्येक परत पिछली परत से एक इनपुट लेती है, कनवल्शनल, पूलिंग और रिले ट्रांसफॉर्मेशन को लागू करती है और फिर आउटपुट को अगली लेयर पर भेजती है। इस प्रकार, प्रत्येक परत का आउटपुट फीचर स्पेस का एक अनूठा प्रतिनिधित्व है। डीप न्यूरल नेटवर्क्स को एक ट्रेपोज़ॉइडल पिरामिड के रूप में दर्शाया जा सकता है, जहाँ इनपुट इमेज सबसे नीचे होती है, और प्रत्येक प्रगतिशील लेयर में बदलाव होता है और (हो सकता है) फीचर स्पेस को कंप्रेस करता है।

2. पत्राचार Sparsity

वीजीजी कन्वेन्शनल न्यूरल नेटवर्क के माध्यम से छवियों की एक जोड़ी को खिलाया जाता है, और आगे प्रसार के द्वारा, प्रत्येक परत की सक्रियता (उर्फ आउटपुट) के आधार पर, दो फीचर पदानुक्रम निर्मित होते हैं (प्रत्येक छवि के लिए एक)। पदानुक्रम की पहली कुछ परतों में, नेटवर्क किनारों, रेखाओं और अन्य बुनियादी निम्न-स्तरीय विशेषताओं को पहचानता है। अंतिम कुछ परतों में, नेटवर्क कक्षा-स्तरीय परिभाषित विशेषताओं (जैसे कान, आंख, नाक, आदि) को पहचानना शुरू कर देता है।

आउटपुट के अनुरूप सेल के लिए उच्च सक्रियता दिखा कर नेटवर्क by पहचानता है ’। इस प्रकार, शुरुआती परतों में उच्च सक्रियण वाली कोशिकाएं किनारों / रेखाओं के अनुरूप होती हैं, जबकि बाद की परतों में उच्च सक्रियण वाली कोशिकाएँ श्रेणी-स्तर की विशेषताओं के अनुरूप होती हैं। एक थ्रेशोल्ड के नीचे की सभी सक्रियता को खोज स्थान से फ़िल्टर किया जाता है, ताकि केवल मुख्य विशेषताओं को पहचाना जाए - और ताकि आउटपुट वास्तव में फैल जाए। अन्यथा, महत्वपूर्ण शोर परिणाम विकृत करेगा।

3. न्यूरल स्टाइल ट्रांसफर

क्षेत्र, सुविधा रिक्त स्थान के महत्वपूर्ण भाग, दो चित्रों के लिए मौलिक रूप से अलग होंगे क्योंकि यह स्पष्ट जानकारी में अंतर है। पृष्ठभूमि द्वारा बनाए गए शोर को खत्म करने के लिए एक आम स्थानीय उपस्थिति की आवश्यकता होती है। इस प्रकार, सभी फ़ीचर स्पेस को इमेज ट्रांसफर के आधार पर स्टाइल ट्रांसफर द्वारा बदल दिया जाता है, जो इमेज की जोड़ी से जुड़े फ़ीचर स्पेस के फ्यूज़न पर आधारित होता है।

4. न्यूरल बेस्ट फ्रेंड्स

न्यूरल बेस्ट फ्रेंड्स न्यूरॉन्स के जोड़े हैं जो एक करीबी पत्राचार दिखाते हैं। न्यूरल बेस्ट फ्रेंड्स एक दूरी मीट्रिक द्वारा निर्धारित किए जाते हैं जो न्यूरॉन्स की चयनित जोड़ी के पड़ोसियों के परिमाण पर आधारित है। यदि पड़ोसी उच्च समानता दिखाते हैं, तो न्यूरॉन को अपने समकक्ष को उच्च सहसंबंध दिखाना चाहिए।

दृढ़ नेटवर्क में, परत k-1 में न्यूरॉन्स की एक x x m ग्रिड से परत k में एक न्यूरॉन का संबंध होता है, जहां m को नेटवर्क की वास्तुकला और k द्वारा निर्धारित किया जाता है। इस ग्रिड को न्यूरॉन के ग्रहणशील क्षेत्र के रूप में जाना जाता है। एक बार तंत्रिका सबसे अच्छे दोस्त निर्धारित किए जाते हैं कि स्पार्सिटी थ्रेसहोल्ड को पार कर लेते हैं, उनके ग्रहणशील क्षेत्र परत के -1 में नए क्षेत्रों के अनुरूप होते हैं।

5. एल्गोरिथम सारांश

दो आरजीबी चित्र तंत्रिका जाल में खिलाए जाते हैं। प्रत्येक परत से सक्रियण को आगे प्रसार से निकाला जाता है। अंतिम परत में, क्षेत्र को अंतरिक्ष की संपूर्णता को शामिल करने के लिए परिभाषित किया गया है।

फिर प्रत्येक क्षेत्र के लिए:

  • ट्रांसफ़र क्षेत्र 1 और इसी क्षेत्र 2 शैली स्थानांतरण के साथ
  • प्रत्येक क्षेत्र के लिए तंत्रिका सर्वश्रेष्ठ बडी जोड़े की गणना करें
  • सक्रियण परिमाण के आधार पर फिल्टर जोड़े
  • नए क्षेत्रों को सीमांकित करने के लिए पिछली परत में प्रत्येक जोड़ी के अनुरूप ग्रहणशील क्षेत्र खोजें

इनपुट लेयर तक पहुंचने तक जारी रखें।

पहली परत (इनपुट छवि) में गणना की गई सर्वश्रेष्ठ दोस्त को रैंक किया जाता है और इन दोनों छवियों के बीच एक मजबूत सटीक पत्राचार बनाने के लिए समान रूप से वितरित किया जाता है।

मूल्यांकन

विधि में उल्लेखनीय रूप से उच्च सटीकता है। यहाँ क्रॉस-पत्राचार पत्राचार में अन्य अत्याधुनिक एल्गोरिदम के लिए न्यूरल बेस्ट फ्रेंड तकनीक की तुलना करने वाले कुछ दृश्य दिए गए हैं।

स्रोत: न्यूरल बेस्ट फ्रेंड्स

आवेदन

न्यूरल बेस्ट फ्रेंड्स का एक संभावित एप्लीकेशन एक इमेज मॉर्फ है। समस्या यह है: दो समान रूप से समान वस्तुओं को दिखाते हुए चित्र, एक मध्यवर्ती स्थिति विकसित की जा सकती है। नीचे, हम एक ऐसा उदाहरण देखते हैं। पत्राचार बाईं और सबसे दाईं ओर की छवियों के लिए निर्धारित किया गया है, और एक रूप इस प्रकार उनके बीच बन सकता है।

सबसे बाईं ओर की छवि और सबसे दाईं ओर की छवि पेपर में बनाए गए एल्गोरिथ्म में इनपुट हैं। इंटरमीडिएट स्टेट्स एल्गोरिदम द्वारा पता लगाए गए मुख्य बिंदुओं के आधार पर दो छवियों को एक साथ मर्ज करके बनता है

¹नोरल बेस्ट-फ्रेंड्स: स्पार्स क्रॉस-डोमेन कॉरेस्पोंडेंस