पैपर्स 101 - एक एआई ने अंधेरे में कैसे सीखा?

नमस्कार, मैं निशंक हूं और PAPERS 101 में आपका स्वागत है, एक ऐसी श्रृंखला जहां हम मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के क्षेत्र में चल रहे नए और रोमांचक शोधों पर चर्चा करेंगे!

मैं अपने YouTube चैनल के माध्यम से मुझे इस पेपर से परिचित कराने के लिए दो मिनट पत्रों और Kroroly Zsolnai-Fehér को धन्यवाद देना चाहूंगा।

शुरू करने से पहले, क्लिकबैट की एक कहानी को कभी याद न करने के लिए हमारे न्यूज़लेटर की सदस्यता लेना न भूलें!

क्या बिल्ली है?

स्मार्टफोन कैमरों के युग में, कम-प्रकाश फोटोग्राफी एक होना चाहिए। सभी फ्लैगशिप फोन लो-लाइट फोटोग्राफी का समर्थन करते हैं लेकिन जैसा कि आपने देखा होगा कि परिणाम अच्छे नहीं हैं।

ऐसा इसलिए है क्योंकि वे ज्यादातर पारंपरिक डीनोइजिंग और डीबेलिंग तकनीकों का उपयोग करते हैं जो कुछ शोर को दूर करने के लिए प्रभावी होते हैं लेकिन अंधेरे जैसी चरम स्थितियों में बुरी तरह से विफल होते हैं जो एक बड़ी चुनौती है।

यह पेपर उस चुनौती का हल है।

कंप्यूटर विज़न आर्टिफिशियल इंटेलिजेंस का एक क्षेत्र है जो दृश्य इनपुट प्राप्त करने के लिए घूमता है और या तो प्राप्त इनपुट की समझ बनाता है या वांछित इनपुट प्राप्त करने के लिए किसी तरह से दिए गए इनपुट में हेरफेर करता है। जिस कागज के बारे में हम यहाँ चिंतित हैं वह दूसरे उपयोग के मामले पर काम करता है।

अपने शोधपत्र "लर्निंग टू सी इन द डार्क" के शोधकर्ताओं चेन चेन (UIUC), किफेंग चेन (इंटेल लैब्स), जिया जू (इंटेल लैब्स) और व्लाडिन कोल्टुन (इंटेल लैब्स) ने एक मॉडल का प्रस्ताव रखा है, जिसे बेहद कम प्रकाश में देखा जा सकता है। ऐसी स्थितियाँ जो एक नई छवि प्रसंस्करण पाइपलाइनों का उपयोग करते हुए अंधेरे की तुलना में लगभग तुलनात्मक तंत्रिका नेटवर्क का उपयोग कर रही हैं।

परिणाम आश्चर्यजनक हैं!

यदि आप बिना कम प्रकाश वाली फोटोग्राफी (कम आईएसओ) वाले कैमरे का उपयोग करते हुए चित्र लेते हैं, तो यह कुछ इस तरह दिखेगा-

यदि आप फ्लैगशिप स्मार्टफोन्स में कम रोशनी वाले कैमरे की तरह ही तस्वीर क्लिक करते हैं, तो परिणाम कुछ ऐसा होगा जैसा कि नीचे दिखाया गया है। ध्यान दें कि बीएम 3 डी और लोअर आईएसओ जैसे स्केलिंग फिल्टर के कारण चित्र कितना दानेदार है।

स्केलिंग + बीएम 3 डी डेनोइजिंग

अब पूरी तरह से आश्वस्त करने वाला नेटवर्क क्या करता है, पहली छवि लेता है और इसे नीचे दी गई छवि प्राप्त करने के लिए संसाधित करता है (हां! मैं ध्यान नहीं दे रहा हूं।)

सीएनएन के माध्यम से प्रसंस्करण के बाद छवि

रुको क्या!

यहां मॉडल लंबे समय तक एक्सपोज़र संदर्भ छवियों के साथ कच्चे शॉर्ट-एक्सपोज़र नाइट-टाइम छवियों के डेटासेट का उपयोग करने वाले पूर्ण-संवादात्मक नेटवर्क को समाप्त करने के लिए एक अंत का उपयोग करता है। यह रात के फ़ोटोग्राफ़ी जैसे चरम परिदृश्यों से परिणाम प्राप्त करना बहुत आसान और कुशल है, क्योंकि यह पारंपरिक मूल्य-निर्धारण और डीब्रीफ़िंग तकनीकों की तुलना में है।

CNN प्रशिक्षित कैसे किया जाता है?

CNN को दो सेट चित्रों पर प्रशिक्षित किया जाता है।

  1. एक मंद रोशनी (लगभग अंधेरा) दृश्य या एक इनपुट के रूप में लघु-एक्सपोज़र चित्र।
  2. एक समान सामान्य प्रकाश दृश्य या लक्ष्य के रूप में एक ही दृश्य की लंबी-एक्सपोज़र तस्वीर।

तंत्रिका जाल को 5094 कच्ची लघु-एक्सपोज़र छवियों और उनके संबंधित लंबी-एक्सपोज़र छवियों वाले डेटासेट पर प्रशिक्षित किया जाता है।

इसलिए यदि आप नेटवर्क को प्रशिक्षित करना चाहते हैं, तो आपको सबसे पहले सामान्य प्रकाश व्यवस्था की स्थिति के तहत एक फोटोग्राफ पर क्लिक करना होगा, जिसका उपयोग नेटवर्क द्वारा त्रुटि प्राप्त करने के लिए लक्ष्य चर के रूप में किया जाएगा।

अगला, आपको उसी दृश्य के कम एक्सपोज़र फोटोग्राफ पर क्लिक करना होगा ताकि वह अंधेरा दिखे। यह प्रशिक्षण देते समय नेटवर्क को इनपुट के रूप में दिया जाएगा।

इन दो तस्वीरों की जोड़ी नेटवर्क के लिए एक (इनपुट, आउटपुट) जोड़ी का उत्पादन करेगी, जिस पर इसे कम रोशनी वाली छवियों पर इस्तेमाल करने के लिए प्रशिक्षित किया जाएगा।

एफसीएन पाइपलाइन

प्रशिक्षण को L1 हानि और एक एडम ऑप्टिमाइज़र का उपयोग करके किया गया था, जिसने असाधारण गुणवत्ता वाले परिणाम दिए और मॉडल को अब तक सबसे अधिक कुशल बना दिया!

कितना अच्छा है?

यह मॉडल शर्मनाक तरीके से पारंपरिक दुर्व्यवहार और निंदा के तरीकों को सामने रखता है। यहाँ पारंपरिक BM3D के साथ एक तुलना है -

पारंपरिक स्केलिंग का उपयोग छविछवि स्केलिंग + बीएम 3 डी का उपयोग करनासीएनएन के माध्यम से प्रसंस्करण के बाद छवि

आप तुरंत अंतर देख सकते हैं।

यदि हम एक्सपोजर और प्रकाश व्यवस्था जैसे विभिन्न मापदंडों का उपयोग करते हुए CNN के प्रदर्शन की तुलना फ्लैगशिप मोबाइल कैमरों से करते हैं, तो परिणाम आपको आश्चर्यचकित कर सकते हैं!

आइए एक परिदृश्य पर विचार करें, जहां एक अंधेरे कमरे में 8 मोमबत्तियां जलाई जाती हैं और विभिन्न कैमरों द्वारा पुतले की तस्वीर में परिवर्तन देखा जाता है क्योंकि हर बार मोमबत्तियों की संख्या आधी हो जाती है।

8 मोमबत्तियाँ4 मोमबत्तियाँ

ध्यान दें कि Sony a7S की तुलना में iPhone X और Google Pixel 2 में फोटो की गुणवत्ता कैसे कम हो रही है। ऐसा इसलिए है क्योंकि एक तरफ, सोनी के कैमरे में दोनों मोबाइल कैमरों की तुलना में बेहतर आईएसओ है, मोबाइल कैमरे कच्चे डेटा से कम रोशनी की तस्वीर प्राप्त करने के लिए पारंपरिक डीब्रीडिंग और डीनोइजिंग तकनीकों का उपयोग कर रहे हैं।

2 मोमबत्तियाँ1 मोमबत्ती

अब स्मार्टफोन के कैमरों में फोटो लगभग अंधेरा है और यह निर्णायक है कि वे अंधेरे जैसी चरम स्थितियों में विफल हो गए हैं।

हालाँकि, सोनी कैमरे पर तस्वीर अभी भी स्पष्ट है क्योंकि, जैसा कि आपने देखा होगा, उसने बड़ी चतुराई से इसे 0.8 सेकंड से 1.6 सेकंड में बदल दिया है, जिससे अधिक प्रकाश अंदर आ सके और इसलिए एक बेहतर तस्वीर दे सके।

यह स्मार्टफोन कैमरों के लिए अव्यावहारिक है क्योंकि यह एक धुंधली छवि देगा और इसलिए यह केवल महंगे, उच्च-अंत वाले कैमरों पर किया जा सकता है, जिसमें बेहतर चिंतनशील लेंस और एक अत्यधिक कुशल सेंसर होता है।

लेकिन, आइए देखें कि अगर हम एक्सपोज़र टाइम को घटाकर एक सेकंड के 1/30 तक ले जाते हैं, तो कैमरे बेहद कम रोशनी और कम एक्सपोज़र टाइम में कितना अच्छा प्रदर्शन करते हैं।

1 मोमबत्ती - कम एक्सपोजर

जैसा कि आप इस स्तर पर देख सकते हैं कि सभी कैमरे विफल हो गए हैं और हम कुल अंधेरे का निरीक्षण करते हैं। इसकी दो अलग-अलग वजहें हैं-

  1. मोबाइल कैमरों में, ऐसा इसलिए हुआ है क्योंकि वे पारंपरिक डीब्रीडिंग और डीनोइजिंग तकनीकों जैसे बीएम 3 डी का उपयोग करते हैं, जो कि विफल हो जाते हैं जब प्रकाश की मात्रा बहुत कम होती है और इसके साथ काम करने के लिए कुछ भी नहीं होता है।
  2. सोनी के कैमरे में, ऐसा कम एक्सपोज़र समय के कारण हुआ है इसलिए कैमरे में कम मात्रा में प्रकाश की अनुमति थी, इसलिए एक अंधेरे छवि।

लेकिन पकड़ो। क्या हम कुछ कर सकते हैं, एक्सपोज़र के समय के 1/30 में एक बेहतर छवि पाने के लिए और बेहद कम रोशनी (<0.1 लक्स) की स्थिति?

आश्चर्यचकित होने के लिए तैयार रहें क्योंकि इस पेपर ने वही किया है जो हम चाहते हैं!

यदि 1 मोमबत्ती और कम एक्सपोज़र के साथ ऊपर की छवि (सबसे अंधेरी तस्वीरों वाला एक) से कच्चा सेंसर डेटा पूरी तरह से दी जाने वाली नेटवर्क में खिलाया जाता है, तो हमें एक आउटपुट मिलेगा जो इस तरह दिखता है!

क्या! क्या आप मेरे साथ मजाक कर रहे हैं!

आश्चर्य चकित? मैं भी था!

मुझे उम्मीद है कि इस तकनीक को स्मार्टफोन कैमरों में वास्तव में जल्द ही लागू किया जाएगा और आप बेहद कम प्रकाश फोटोग्राफी का आनंद लेना शुरू कर देंगे, जिसे मशीन सीखने की पेशकश करनी होगी!

और वह मशीन लर्निंग और तंत्रिका नेटवर्क की शक्ति है।

यह इस तरह के अनुप्रयोग हैं जो मशीन लर्निंग और तंत्रिका नेटवर्क का अध्ययन करने के लिए अधिक से अधिक लोगों को प्रेरित करते हैं। यह सटीक कारण है कि मैंने क्लिकबैट शुरू किया और PAPERS 101 अस्तित्व में आया!

बेझिझक टिप्पणियों में पोस्ट करें, आप इस पेपर के बारे में क्या सोचते हैं।

साथ ही, PAPERS 101 के बारे में सुझाव और प्रशंसा, सामान्य रूप से, और clickbait का टिप्पणी में स्वागत है।

खैर, यह इस सप्ताह के लिए और अगली बार तक है!

Adios!