एक मशीन को धोखा देकर आप सोच रहे हैं कि आप जोला जोविच हैं

और मशीन सीखने में अन्य प्रकार के प्रतिकूल हमले

एक एडवरसैरियल अटैक क्या है?

2014 की शुरुआत में, सजेगी एट अल। (2014) से पता चला कि मशीन लर्निंग मॉडल्स के इनपुट्स में न्यूनतम फेरबदल करने से गर्भपात हो सकता है। इन इनपुट को प्रतिकूल उदाहरण के रूप में कहा जाता है: एक मॉडल को धोखा देने के लिए जानबूझकर इंजीनियर के डेटा के टुकड़े।

एक मछली (बाएं) की यह तस्वीर सही ढंग से वर्गीकृत है, लेकिन फास्ट ग्रैडिएंट साइन मैथड (एफजीएसएम) द्वारा उत्पन्न एक छोटे गड़बड़ी (मध्य) के कारण एक क्लासिफायर का कारण बिल्ली के रूप में परिणामी छवि (दाएं) का गलत वर्गीकरण होता है।

तब से हमने प्रतिकूल हमलों और बचाव के बीच हथियारों की दौड़ देखी है। उदाहरण के लिए, एक रक्षा तंत्र जिसे रक्षात्मक आसवन कहा जाता है (Papernot et al।, 2015) जिसे 2015 में कला की स्थिति माना गया था, 2016 में 100% सफलता दर के साथ कारिनी एंड वैगनर (C & W) के तरीकों से सफलतापूर्वक हमला किया गया। इसके अलावा, सात उपन्यास लर्निंग रिप्रेजेंटेशन (ICLR) 2018 के छठे अंतर्राष्ट्रीय सम्मेलन में स्वीकार किए गए रक्षा तंत्र को स्वीकृति के निर्णय के कुछ ही दिनों बाद सफलतापूर्वक (Athae et al।, 2018) को दरकिनार कर दिया गया। इससे पता चलता है कि प्रतिकूल हमलों के खिलाफ मजबूती से बचाव करना कितना मुश्किल है।

मुझे अडवांस अटैक की परवाह क्यों करनी चाहिए?

वास्तविक दुनिया में प्रतिकूल उदाहरणों के अस्तित्व के निहितार्थ को कम करके नहीं आंका जा सकता। एक घर के मालिक पर विचार करें जो एक सुरक्षा सुविधा के रूप में चेहरे की पहचान प्रणाली का उपयोग करता है। अब हम एक अदद चश्मा (शरीफ वगैरह, 2016) तैयार कर सकते हैं, जो चेहरे की पहचान करने वाले मॉडलों को बेवकूफ बनाने के लिए असली चश्मों के फ्रेम पर मुद्रित और रखा जा सकता है।

एक प्रतिकूल चश्मा (शीर्ष) पहने हुए एक व्यक्ति को मिली जोविच (नीचे) (शरीफ और अन्य।, 2016) के रूप में बड़े पैमाने पर गर्भपात किया जाता है।

एक और वास्तविक दुनिया का उदाहरण जहां प्रतिकूल उदाहरण खतरनाक हो सकते हैं सड़क के संकेतों के हेरफेर में है। एव्टिमोव एट अल। (2017) ने विभिन्न दूरी और कोणों से देखे जाने पर भी गति सीमा संकेत के रूप में एक प्रतिकूल स्टॉप साइन उत्पन्न किया जो हमेशा मिसकैरेज होता है। स्वायत्त वाहनों के लिए निहितार्थ स्पष्ट हैं।

प्रतिकूल स्टॉप संकेतों के उदाहरण जो गति सीमा के संकेत (Evtimov et al।, 2017) के रूप में मिसकॉलिफ़ाइड हैं।

इसके अलावा, कार्लिनी एंड वैगनर (2018) ने दिखाया कि एक स्पीच रिकग्निशन मॉडल को इनपुट में बैकग्राउंड नॉइज़ जोड़कर मूर्ख बनाया जा सकता है। वे वाक्यों के अनुरूप ऑडियो फाइल को संशोधित करते हैं "बिना डेटासेट के लेख बेकार है" भाषण मान्यता मॉडल को "ठीक Google ब्राउज टू बुराई डॉट कॉम" के रूप में बदलने के लिए। संशोधित ऑडियो, जिसे आप यहां सुन सकते हैं, लगभग मानव के समान लगता है। इस तरह के प्रतिकूल ऑडियो में स्मार्टफोन, स्मार्ट होम या सेल्फ ड्राइविंग कारों में बिना सोचे-समझे भाषण इंटरफेस पर उपयोग किए जाने पर गंभीर शरारत करने की क्षमता होती है।

एक त्वरित शब्दावली

आइए कई शब्दों पर एक नज़र डालते हैं जो अक्सर प्रतिकूल मशीन सीखने के क्षेत्र में उपयोग किए जाते हैं:

  • व्हाइटबॉक्स हमला: हमला परिदृश्य जहां हमलावरों को उस मॉडल तक पूरी पहुंच है, जिस पर वे हमला करना चाहते हैं। जैसे कि वे मॉडल की वास्तुकला और मापदंडों को जानते हैं।
  • ब्लैकबॉक्स हमला: हमला परिदृश्य जहां हमलावर केवल उस मॉडल के आउटपुट का निरीक्षण कर सकते हैं जिस पर वे हमला करने की कोशिश कर रहे हैं। उदाहरण के लिए, एपीआई के माध्यम से मशीन लर्निंग मॉडल पर हमला करना एक ब्लैकबॉक्स हमला माना जाता है क्योंकि कोई केवल विभिन्न इनपुट प्रदान कर सकता है और आउटपुट का निरीक्षण कर सकता है।
  • लक्षित हमला: हमला परिदृश्य जहां हमलावरों को विशिष्ट तरीके से गलत तरीके से दिखाए जाने के लिए डिजाइन करते हैं। उदाहरण के लिए, पहले हमारा ऑडियो उदाहरण: "डेटासेट के बिना लेख बेकार है" से "ओके गूगल ब्राउज टू एविल डॉट कॉम"। विकल्प एक अलक्षित हमला है, जिसमें हमलावर तब तक परिणाम के बारे में परवाह नहीं करते हैं जब तक कि उदाहरण गलत है।
  • यूनिवर्सल अटैक: हमले का परिदृश्य जहां हमलावर छवि परिवर्तन के रूप में एक एकल रूपांतर करते हैं, जो प्रतिकूल रूप से सभी या अधिकांश इनपुट मूल्यों (इनपुट-अज्ञेयवादी) के लिए मॉडल को भ्रमित करता है। एक उदाहरण के लिए, Moosavi-Dezfooli et al देखें। (2016)।
  • ट्रांसफ़रेबिलिटी: एक घटना जहां एक विशिष्ट मॉडल को मूर्ख बनाने के लिए उत्पन्न प्रतिकूल उदाहरण एक और मॉडल को बेवकूफ बनाने के लिए इस्तेमाल किया जा सकता है जो एक ही डेटासेट पर प्रशिक्षित होता है। इसे अक्सर प्रतिकूल उदाहरण (Szegedy et al।, 2014; Papotot et al।, 2016) की हस्तांतरणीय संपत्ति के रूप में जाना जाता है।

अब हम क्षेत्र के विकास को बढ़ावा देते हुए, कंप्यूटर विज़न डोमेन (वर्गीकरण मॉडल सटीक होने के लिए) पर हमलावरों के ज्ञान के आधार पर प्रतिकूल हमलों को उत्पन्न करने के लिए, अर्थात् व्हाइटबॉक्स या ब्लैकबॉक्स को देखते हैं। अगले पोस्ट में, हम हथियारों की दौड़ के दूसरी तरफ देखेंगे: प्रतिकूल रक्षा के लिए तंत्र का शस्त्रागार।

इस लेख में कवर किए गए प्रतिकूल हमलों की समयरेखा।

एडवरसैरियल उदाहरण कैसे उत्पन्न होते हैं?

इस लेख में चर्चा की गई हमलावरों के ज्ञान के आधार पर प्रतिकूल हमलों की शब्दावली। ध्यान दें कि यह जरूरी नहीं कि सभी हमले विधियों का प्रतिनिधित्व करता है जो आज मौजूद हैं।

व्हाइटबॉक्स एडिटिव एडवरसरील पर्टर्बेशन डीएल / डीएक्स पर आधारित है

हमलों का यह परिवार एक तरह से इनपुट को बनाए रखने के विचार पर आधारित है जो अधिकतम मॉडल के नुकसान फ़ंक्शन को बदलता है। तंत्रिका नेटवर्क के मामले में, इसका मतलब है कि हमें इसके इनपुट के संबंध में नुकसान फ़ंक्शन के व्युत्पन्न की गणना करने के लिए वापस प्रसार करने की आवश्यकता है (जैसा कि हम आमतौर पर तंत्रिका नेटवर्क का प्रशिक्षण करते समय मापदंडों का विरोध करते हैं)। विशेष रूप से, एक हमलावर पेरट्रबेशन के लिए इष्टतम दिशा खोजने और इस दिशा में इनपुट को इस उम्मीद में कुतरने में रुचि रखता है कि मॉडल पेरटर्ड इनपुट को मिसकॉलिज़ करेगा।

डीएल / डीएक्स और पुनरावृत्ति अनुकूलन आधारित हमलों के आधार पर एडिटिव दोनों विपरीतार्थी गड़बड़ी के लिए व्हाइटबॉक्स हमलों का चित्रण। एक बार dL / dx की गणना हो जाने के बाद (चरण 1), कोई एक खेल के रूप में हमले की प्रक्रिया को देख सकता है जहां एक खिलाड़ी (हमलावर) कुछ संकेत के आधार पर इनपुट के पिक्सेल मूल्यों (चरण 2) को समायोजित कर सकता है, अर्थात ढाल dL / dx , एक मॉडल को मूर्ख बनाने के लिए (चरण 3)।

फास्ट ग्रेडिएंट साइन मेथड (FGSM)

FGSM (गुडफेलो एट अल।, 2014) उस दिशा की खोज करता है जिसमें लक्ष्य मशीन लर्निंग मॉडल के लिए हानि फ़ंक्शन सबसे तेजी से बढ़ता है। FGSM एक व्हाइटबॉक्स हमले का एक उदाहरण है क्योंकि हमलावर को मॉडल की वास्तुकला और मापदंडों को वापस प्रचार करने के लिए जानना आवश्यक है। एक बार ग्रेडिएंट की गणना हो जाने के बाद, व्यक्ति इनपुट को छोटी राशि द्वारा प्रतिकूल ढाल की ओर धकेल सकता है।

FGSM तैयार करना। यहाँ, x 'एक प्रतिकूल उदाहरण है जो x के समान दिखना चाहिए जब, छोटा होता है, और y मॉडल का आउटपुट होता है। ϵ एक छोटा सा स्थिरांक है जो गड़बड़ी के परिमाण को नियंत्रित करता है, और J मॉडल के नुकसान फ़ंक्शन को दर्शाता है।

इस बात की कोई गारंटी नहीं है कि इस विधि द्वारा उत्पन्न प्रतिकूल उदाहरण इसके वास्तविक समकक्ष के समान हैं। व्यावहारिक रूप से, किसी को छोटे आवेगों के बीच एक ट्रेडऑफ़ बनाने की ज़रूरत होती है जो मूल इनपुट के समान ही होते हैं, और क्या मॉडल वास्तव में गड़बड़ी इनपुट को गलत ठहराता है।

बेसिक Iterative विधि (BIM)

बीआईएम (कुराकिन एट अल।, 2017) एफजीएसएम का एक विस्तार है जिसमें कोई भी एफजीएसएम कई बार चरण आकार के साथ करता है। कुछ अन्य कागजात BIM को Iterative FGSM (I-FGSM) भी ​​कहते हैं।

BIM सूत्रीकरण जहां J मॉडल के नुकसान फ़ंक्शन को दर्शाता है, N पुनरावृत्ति की संख्या को दर्शाता है, और α एक स्थिरांक है जो गड़बड़ियों (कुराकिन एट अल।, 2017) के परिमाण को नियंत्रित करता है। क्लिप {} फ़ंक्शन यह सुनिश्चित करता है कि उत्पन्न प्रतिकूल उदाहरण अभी भी दोनों (गेंद (यानी [x-[, x + ϵ]) और इनपुट स्पेस (यानी [0, 255] पिक्सेल मानों) की सीमा के भीतर है।

(R) andom + FGSM (R + FGSM)

आर + एफजीएसएम में, ट्रामर एट अल। (2017) इनपुट के संबंध में नुकसान के पहले व्युत्पन्न की गणना करने से पहले गॉसियन वितरण से नमूना किए गए कुछ यादृच्छिक गड़बड़ी को जोड़ने का सुझाव देते हैं।

आर + एफजीएसएम फॉर्मूलेशन जहां α एक और स्थिरांक है जो एक सामान्य वितरण (ट्रामर एट अल।, 2017) से नमूना किए गए यादृच्छिक गड़बड़ी की भयावहता को नियंत्रित करता है।

R + FGSM के लिए प्रेरणा उन गढ़ों को दरकिनार करना है जो ग्रेडिएंट मास्किंग (पैपरनोट एट अल।, 2016) पर निर्भर करते हैं, जो कि प्रतिकूल मशीन सीखने में एक बहुत ही महत्वपूर्ण अवधारणा है। धीरे-धीरे मास्किंग तकनीक सटीक डीएल / डीएक्स की गणना करने के लिए हमलावर के लिए कठिन बनाने के लिए मॉडल की ढाल को अस्पष्ट या छिपाना चाहती है। हम इसे अगली पोस्ट में प्रतिकूल डिफेंस पर कवर करेंगे।

स्पॉयलर अलर्ट: ICLR 2018 को सफलतापूर्वक स्वीकार किए गए सात बचावों को obfuscated gradients (Athalye et al।, 2018) पर भरोसा करने के लिए दिखाया गया है, जो कि ग्रेडिएंट मास्किंग का एक रूप है।

व्हाइटबॉक्स हमलों सरोगेट उद्देश्य कार्यों के Iterative अनुकूलन पर आधारित है

ये हमले भी व्हाइटबॉक्स हैं और डीएल / डीएक्स पर निर्भर हैं। हालाँकि, वे गणना किए गए ग्रेडिएंट को सीधे तौर पर एक जोड़ा गड़बड़ी के रूप में उपयोग करने का प्रयास नहीं करते हैं। इसके बजाय, ये हमले एक उद्देश्य फ़ंक्शन को अनुकूलित करने वाले इनपुट के अपडेट को खोजने के लिए अनुकूलन समस्या के रूप में प्रतिकूल हमले को परिभाषित करते हैं। अनुकूलन समस्या के रूप में इसे मॉडलिंग करने से व्यक्ति को उद्देश्य समारोह में अधिक प्रतिकूल मानदंड में मोड़ने में लचीला होने की अनुमति मिलती है।

एल-बीएफजीएस हमला

Szegedy एट अल। (२०१४) ने प्रतिकूल उदाहरणों को इनपुट के रूप में परिभाषित किया है जो एक दूरी मीट्रिक (जैसे L2 दूरी a.k.a. Euclidean दूरी या माध्य चुकता त्रुटि) के अनुसार उनके वास्तविक समकक्षों के समान दिखते हैं, लेकिन एक जो इसे वर्गीकृत करने के लिए एक वर्गीकरण का कारण बनता है। सीमित-मेमोरी ब्रोयडेन-फ्लेचर-गोल्डफर्ब-शन्नो (एल-बीएफजीएस) एक गैर-रैखिक ढाल आधारित संख्यात्मक अनुकूलन एल्गोरिदम है। हालांकि, Szegedy एट अल के बाद से। (2014) ने समस्या को एक अनुकूलन समस्या के रूप में परिभाषित किया जिसे एल-बीएफजीएस का उपयोग करके हल किया जा सकता है, हमले को अब एल-बीएफजीएस हमले के रूप में जाना जाता है। L-BFGS हमले का उद्देश्य एक गड़बड़ी r को खोजना है जो कम से कम हो:

L-BFGS अटैक इस ऑप्टिमाइज़ेशन प्रॉब्लम को हल करने का प्रयास करता है जहाँ r perturbation (Szegedy etout, 2014) है।

उपर्युक्त सूत्रीकरण में, क्लासिफायर f को m + श्रेणी के रूप में x + r को गलत बनाने के लिए लक्ष्य बनाया गया है। यहां उपयोग किया जाने वाला नुकसान फ़ंक्शन क्रॉस-एन्ट्रापी नुकसान है, लेकिन अन्य सरोगेट कार्यों के साथ बदला जा सकता है जैसा कि हम अगले हमले में देखेंगे। यहां, न्यूनतम निरंतर सी को खोजने के लिए लाइन खोज का उपयोग किया जाता है जहां सी> 0 जब तक एक प्रतिकूल नहीं मिलता है।

कार्लिनी एंड वैगनर अटैक (C & W)

कार्लिनी एंड वैगनर (2016) ने मानक क्रॉस-एंटेरिस का उपयोग करने के बजाय उद्देश्य फ़ंक्शन को संशोधित करके एल-बीएफजीएस हमले को बढ़ाया:

C & W अटैक में इस्तेमाल होने वाला लॉस फंक्शन। नोटेशन में परिवर्तन पर ध्यान दें जहां एफ अब क्लासिफायर के नुकसान फ़ंक्शन का प्रतिनिधित्व करता है, न कि क्लासिफायरियर का। यहाँ, ज़ेड (x ') लॉग्स को निरूपित करता है (सॉफ्ट नेटवर्क परत से पहले एक तंत्रिका नेटवर्क के आउटपुट) जब गुजरता इनपुट (x') और टी लक्ष्य misclassification लेबल का प्रतिनिधित्व करता है (वह लेबल जिसे हम चाहते हैं कि सहायक को मिसकॉलिज़ किया जाए) , जबकि score एक स्थिर है जो वांछित आत्मविश्वास स्कोर (कार्लिनी और वैगनर, 2016) को नियंत्रित करता है।

इस उद्देश्य समारोह के लिए अंतर्ज्ञान लक्ष्य वर्ग टी और सबसे अधिक संभावना वर्ग के बीच की दूरी के लिए अनुकूलन करना है। यदि वर्तमान में t का लॉगिट मान सबसे अधिक है, तो लॉग का अंतर नकारात्मक होगा, और इसलिए जब t और रनर-अप वर्ग के बीच लॉगिट अंतर सबसे अधिक हो तो अनुकूलन बंद हो जाएगा। दूसरे शब्दों में, words प्रतिकूल उदाहरण के लिए वांछित आत्मविश्वास को नियंत्रित करता है (उदाहरण के लिए जब κ छोटा होता है, तो उत्पन्न प्रतिकूल उदाहरण एक कम आत्मविश्वास का प्रतिकूल उदाहरण होगा)। दूसरी ओर, यदि t में उच्चतम लॉगिट नहीं है, तो f को कम करने से उच्चतम श्रेणी के लॉगिट और लक्ष्य वर्ग के लॉग के बीच का अंतर आ जाता है, यानी या तो उच्चतम श्रेणी का विश्वास कम हो जाता है और / या लक्ष्य वर्ग बढ़ जाता है 'आत्मविश्वास। अंत में, अनुकूलन समस्या का उद्देश्य अब न्यूनतम हो गया है:

थोड़ा संशोधित अनुकूलन उद्देश्य। यहाँ, w वह चर है जिसे हम (कार्लिनी और वैग्नर, 2016) से अधिक अनुकूलित करना चाहते हैं।

कार्लिनी एंड वैगनर (2016) ने वास्तव में तीन अलग-अलग अवधारणात्मक समानता मेट्रिक्स (L0, L2, और L2) के तहत तीन अलग-अलग हमलों का प्रस्ताव दिया। सादगी के लिए, मैं इस लेख में केवल एल 2 हमले दिखा रहा हूं, लेकिन कागज में उनके अन्य हमलों की जांच करने के लिए स्वतंत्र महसूस कर रहा हूं। जैसा कि पहले उल्लेख किया गया है, इन हमलों ने रक्षात्मक आसवन को सफलतापूर्वक रोका।

सलाहकार परिवर्तन नेटवर्क (ATN)

ATN (बालूजा और फिशर, 2017) का विचार एक अन्य तंत्रिका नेटवर्क का उपयोग करना है जिसका उद्देश्य या तो (1) प्रतिकूल उदाहरण उत्पन्न करना है जो कि वैध इनपुट (Adversarial Autoencoding या AAE) या (2) प्रतिकूल पेरर्बेशन्स के समान है जो कि जब जोड़ा जाता है। मूल उदाहरण में प्रतिकूल उदाहरण (Perturbation ATN या P-ATN) का उत्पादन होगा। जनरेटर का लक्ष्य उत्पन्न छवि और वैध इनपुट (जैसे एल 2 नुकसान) के बीच समानता हानि को कम करना है, जबकि क्लासिफायरियर की भविष्यवाणियों और नकली लक्ष्यों के बीच वर्गीकरण के नुकसान को कम करने की कोशिश भी है।

एएई का चित्रण। ध्यान दें कि यह आंकड़ा कागज से नहीं है, बल्कि केवल विज़ुअलाइज़ेशन के उद्देश्य से बनाया गया है। बालूजा और फिशर (2017) ने सादगी के लिए अपने पेपर में नुकसान की शर्तों के लिए एल 2 नुकसान का इस्तेमाल किया।पी-एटीएन का चित्रण। ध्यान दें कि यह आंकड़ा कागज से नहीं है, बल्कि केवल विज़ुअलाइज़ेशन के उद्देश्य से बनाया गया है। बालूजा और फिशर (2017) ने सादगी के लिए अपने पेपर में नुकसान की शर्तों के लिए एल 2 नुकसान का इस्तेमाल किया।

ध्यान दें कि एक जनरेटर को केवल प्रतिकूल उदाहरण (या गड़बड़ी) उत्पन्न करने के लिए प्रशिक्षित किया जा सकता है जिसे लक्ष्य क्लासिफायर द्वारा एक निश्चित वर्ग के रूप में गर्भपात किया जाएगा। इसलिए, विभिन्न वर्गों के रूप में मिसकैरेज किए जाने वाले प्रतिकूल उदाहरण उत्पन्न करने के लिए, विभिन्न एटीएन को प्रशिक्षित करने की आवश्यकता है। हालांकि यहां उल्लेख नहीं किया गया है, बालूजा और फिशर (2017) ने प्रशिक्षण लेबल को संशोधित करने के लिए एक "रीरैंकिंग" फ़ंक्शन का भी प्रस्ताव दिया, ताकि उत्पन्न प्रतिकूल उदाहरण केवल लक्ष्य क्लासिफायरियर के आउटपुट को न्यूनतम रूप से संशोधित करें। जिज्ञासु पाठकों को अपने पेपर की जाँच करने के लिए प्रोत्साहित किया जाता है :)

स्थानिक रूप से परिवर्तित नेटवर्क (stAdv)

StAdv (Xiao et al।, 2018) हमले के पीछे का विचार बहुत हद तक L-BFGS और C & W हमलों के समान है। वास्तव में, stAdv वर्गीकरण उद्देश्य के लिए C & W हमले में नुकसान फ़ंक्शन का उपयोग करता है। StAdv और C & W L2 के हमले के बीच का अंतर यह है कि अवधारणात्मक समानता मीट्रिक के रूप में L2 दूरी के लिए अनुकूलन करने की कोशिश करने के बजाय, stAdv का लक्ष्य ज्यामितीय समानता के लिए अनुकूलन करके अवधारणात्मक समानता प्राप्त करना है। दूसरे शब्दों में, पिक्सेल मानों को सीधे संशोधित करने के बजाय, उन्होंने पिक्सल के स्थानिक स्थान को न्यूनतम रूप से संशोधित किया। यह प्रवाह क्षेत्रों को व्युत्पन्न करके किया जाता है, जो प्रत्येक पिक्सेल पर किए गए आंदोलन का वर्णन करता है।

stAdv L2 की दूरी के लिए न्यूनतम के बजाय अवधारणात्मक समानता मीट्रिक के रूप में इस नुकसान फ़ंक्शन को कम करने का सुझाव देता है। यहां, (u, v) प्रत्येक पिक्सेल (पी) के स्थानिक स्थान को संदर्भित करता है, एन (पी) एक निर्दिष्ट त्रिज्या के भीतर पी के आसपास के पड़ोसी पिक्सल को संदर्भित करता है, और क्यू पड़ोसी पिक्सल में से एक है। अंत में, एफ प्रवाह क्षेत्र है जो स्थानिक परिवर्तन (ज़ियाओ और ज़ू एट अल।, 2018) की मात्रा को इंगित करता है।

परिणामस्वरूप प्रतिकूल उदाहरण की गणना निम्न सूत्र द्वारा की जा सकती है:

प्रत्येक पिक्सेल के स्थानिक अपडेट को देखते हुए (Xiao & Zhu et al।, 2018) के प्रतिकूल उदाहरण की गणना कैसे करें।

इस हमले के पीछे प्रेरणा यह है कि एल 2 दूरी जैसी दूरी के मैट्रिक्स आवश्यक रूप से अच्छे अवधारणात्मक मैट्रिक्स का प्रतिनिधित्व नहीं करते हैं। इसके विपरीत, एक छवि में स्थानिक विरूपण को सीमित करने से आमतौर पर एक विकृत छवि बनती है जो मूल छवि से मिलती जुलती है। हम नीचे दिए गए आंकड़े में परिणाम देख सकते हैं जहां पिक्सल को चारों ओर स्थानांतरित कर दिया गया है। लाल तीर दिखाते हैं कि पिक्सेल को सौम्य से प्रतिकूल छवि में कैसे स्थानांतरित किया जाता है।

StAdv के परिणाम। दाईं ओर की प्रतिकूल छवि

निर्णय सीमा के आधार पर ब्लैकबॉक्स सलाहकार

एक ब्लैकबॉक्स सेटिंग में, हमलावरों के पास मॉडल की संरचना तक पहुंच नहीं है, और इसलिए सीधे dL / dx की गणना नहीं कर सकते हैं। इसलिए, हमलों का यह परिवार अनुमान लगाने के विभिन्न तरीकों पर निर्भर करता है कि एक मॉडल प्रदान किए गए इनपुट के आधार पर कैसे व्यवहार करता है। कोई इसे मनोवैज्ञानिक (एक हमलावर) और एक रोगी (एक मॉडल) के बीच के परिदृश्य के रूप में सोच सकता है, जहां मनोवैज्ञानिक एक रोगी से कई सवाल पूछता है, और उसकी प्रतिक्रियाओं के आधार पर एक रोगी के व्यवहार का विश्लेषण करता है।

स्थानापन्न ब्लैकबॉक्स हमला

स्थानापन्न ब्लैकबॉक्स हमले के पीछे अंतर्ज्ञान (Papernot et al।, 2016) ब्लैकबॉक्स मॉडल की निर्णय सीमा को अनुमानित करना है, जिस पर हम हमला करना चाहते हैं। ऐसा करने के लिए, दृष्टिकोण एक सिंथेटिक मॉडल पर एक विकल्प मॉडल को प्रशिक्षित करने के लिए है जो कि ब्लैकबॉक्स मॉडल पर प्रशिक्षित होने वाले डेटासेट के समान है। उदाहरण के लिए, मान लें कि हम हस्तलिखित पहचान करने के लिए MNIST पर प्रशिक्षित एक ब्लैकबॉक्स मॉडल पर हमला करना चाहते हैं, तो सबसे सरल स्थिति में हम स्वयं की लिखावट का उपयोग करके मैन्युअल रूप से सिंथेटिक डेटा उत्पन्न कर सकते हैं। यहां चाल यह है कि सिंथेटिक डेटासेट के लिए लेबल ब्लैकबॉक्स मॉडल की भविष्यवाणी से आना चाहिए।

स्थानापन्न ब्लैकबॉक्स हमले का चित्रण। हमले के प्रदर्शन में चार मुख्य चरण हैं: 1) ब्लैकबॉक्स मॉडल के निर्णय को अनुमानित करने के लिए स्थानापन्न मॉडल को प्रशिक्षित करें, 2) स्थानापन्न मॉडल पर एक व्हाइटबॉक्स हमले (जैसे FGSM) का प्रदर्शन करके प्रतिकूल उदाहरण उत्पन्न करते हैं, 3 यह पुष्टि करते हैं कि प्रतिकूल उदाहरण वैकल्पिक मॉडल को मूर्ख बनाएं, और 4) उत्पन्न प्रतिकूल उदाहरण ब्लैकबॉक्स मॉडल को मूर्ख बनाने के लिए हस्तांतरणीय होना चाहिए।

पापर्नोट एट अल। (2016) ने कहा कि एक हमलावर को वास्तविक दुनिया में अक्सर लक्ष्य मॉडल के लिए असीमित क्वेरी बनाने से विवश किया जाता है। इस विधि को सुगम्य बनाने के लिए, जेकोबियन-आधारित डेटासेट वृद्धि नामक एक डेटासेट संवर्द्धन तकनीक शुरू की गई थी। यह वृद्धि तकनीक एक छोटे प्रारंभिक सिंथेटिक डेटासेट के आसपास कई अतिरिक्त नमूने उत्पन्न करने के लिए इनपुट के संबंध में लक्ष्य मॉडल द्वारा सौंपे गए लेबल के ग्रेडिएंट्स की गणना करने पर आधारित है। हालांकि, चूंकि हमलावर को लक्ष्य मॉडल के बारे में कुछ भी नहीं पता है, इसलिए ग्रेडिएंट्स को इसके बजाय वैकल्पिक मॉडल के मापदंडों के माध्यम से गणना की जाती है। पापर्नोट एट अल। (2016) ने तर्क दिया कि यह वृद्धि तकनीक लक्ष्य मॉडल की निर्णय सीमा को अनुमानित करने के लिए इस पद्धति को अधिक कुशल बनाती है, बड़ी संख्या में प्रश्न किए बिना।

प्रस्तावित डेटा वृद्धि पद्धति का उपयोग करके स्थानापन्न मॉडल के लिए प्रशिक्षण प्रक्रिया निम्नानुसार है। हमलावर ने पहले एक छोटा प्रारंभिक प्रशिक्षण सेट तैयार किया, जहां इसे एक मॉडल से प्रत्येक संभावित वर्ग से एक नमूना चुनकर आरंभ किया जा सकता है जो लक्ष्य मॉडल के इनपुट डोमेन का प्रतिनिधित्व करता है। स्थानापन्न मॉडल को तब लक्ष्य मॉडल द्वारा प्रदान किए गए लेबल का उपयोग करके सिंथेटिक डेटासेट पर प्रशिक्षित किया जाता है (उदाहरण के लिए लक्ष्य मॉडल को क्वेरी करके)। प्रशिक्षण प्रक्रिया पूरी होने के बाद, गणना किए गए ग्रेडिएंट के अनुसार मौजूदा डेटासेट में प्रत्येक नमूने को बदलकर नए डेटा पॉइंट बनाए जाते हैं। अंत में, नए इनपुट मौजूदा डेटासेट में जोड़े जाते हैं, यानी सिंथेटिक डेटासेट का आकार प्रति चलन बढ़ता है। इस प्रक्रिया को फिर कई बार दोहराया जाता है।

एक बार जब विकल्प मॉडल को प्रशिक्षित किया जाता है, तो हम प्रतिकूल उदाहरण प्रस्तुत कर सकते हैं जो कि विकल्प के मॉडल की पूर्ण पहुंच होने के बाद से व्हाइटबॉक्स विधियों का उपयोग करके विकल्प मॉडल को बेवकूफ बनाते हैं। जैसा कि पैपरनोट एट अल द्वारा प्रदर्शित किया गया है। (२०१६), इस तरह उत्पन्न होने वाले प्रतिकूल उदाहरणों को फिर हस्तांतरणीय संपत्ति के लिए ब्लैकबॉक्स मॉडल को मूर्ख बनाने के लिए इस्तेमाल किया जा सकता है। इसके अलावा, इस हमले का उपयोग अक्सर बचाव को दरकिनार करने के लिए किया जा सकता है जो कि रक्षात्मक आसवन (Papernot et al।, 2015) जैसे ढाल पर निर्भर करता है।

ब्लैकबॉक्स एडवाइजरों के आधार पर अनुमानी खोज

स्पष्ट रूप से dL / dx पर भरोसा करने वाले अन्य हमलों के विपरीत, प्रतिकूल उदाहरणों को भी हेयुरिस्टिक खोज करके पाया जा सकता है। उदाहरण के लिए, एक नियम का एक सेट बना सकता है जो प्रतिकूल उदाहरणों को चिह्नित करता है और एक इनपुट खोजने के लिए खोज एल्गोरिदम का उपयोग करता है जो उन नियमों को संतुष्ट करता है।

सीमा पर हमला

सीमा हमला (ब्रेंडल एट अल।, 2018), ब्लैकबॉक्स हमले का एक रूप भी है, मॉडल के माध्यम से गड़बड़ी वाली छवियों के अनुक्रम का मूल्यांकन करके काम करता है। एक गैर-लक्षित हमले के लिए, शुरुआती छवि को समान शोर से नमूना लिया जा सकता है। लक्षित हमले के मामले में, प्रारंभिक छवि लक्ष्य गर्भपात वर्ग से एक उदाहरण है। विधि तब छवि को संशोधित करती है ताकि इसकी प्रतिकूल प्रकृति को बनाए रखने के लिए किसी अन्य वर्ग से एक उदाहरण की तरह देखा जा सके। सीमा हमले के पीछे अंतर्ज्ञान धीरे-धीरे निर्णय सीमा की दिशा में आगे बढ़ना है और सीमा के साथ यादृच्छिक चलना है।

गैर-लक्षित सीमा हमले (कागज से अनुकूलित) का सरलीकृत एल्गोरिदम। चूंकि हमलावर को केवल मॉडल की भविष्यवाणी का मूल्यांकन करने की आवश्यकता होती है, यह हमला ब्लैकबॉक्स हमले की श्रेणी में आता है।

व्यवहार में, ब्रेंडल एट अल।, 2018 ने कुछ बाधाओं को निर्धारित किया है जो ऊपर दिए गए एल्गोरिदम में शोर pling का नमूना लेने के बाद मिलना है। पहली और दूसरी बाधा यह सुनिश्चित करती है कि छवि अभी भी [0, 255] (जैसे 8-बिट आरजीबी छवि के लिए) के भीतर है जब छवि में rain जोड़ा जाता है और यह कि गड़बड़ी क्रमशः छोटी होती है। आखिरी बाधा यह सुनिश्चित करने के लिए है कि ar परछती छवि और मूल इनपुट के बीच की दूरी को कम करते हुए अभी भी प्रतिकूल हो जाएगा। हम कार्यान्वयन विवरण के लिए पाठकों को उनके पेपर में संदर्भित करते हैं।

लक्षित सीमा हमले का चित्रण। जब तक छवि एक अलग वर्ग से दूसरी छवि की तरह दिखती है, तब तक एक

ऊपर दिया गया आंकड़ा लक्षित सीमा हमले को दिखाता है, जहां हम एक वर्ग से एक वैध छवि से शुरू करते हैं जो हम चाहते हैं कि प्रतिकूल को (मछली) के रूप में मिसकैरेज किया जाए और दूसरे वर्ग (बिल्ली) से वैध इनपुट की दिशा में आगे बढ़ें पुनरावृत्तियों।

निष्कर्ष

आइए विभिन्न प्रकार के हमलों का सारांश यहाँ प्रस्तुत करें:

  • कुछ हमले एक इनपुट के संबंध में नुकसान के व्युत्पन्न की गणना करके पहले आदेश व्युत्पन्न पर भरोसा करते हैं, और उस इनपुट को उस दिशा की ओर धकेलते हैं जहां नुकसान बढ़ेगा (FGSM, BIM, R + FGSM)।
  • अन्य हमले विभिन्न उद्देश्य कार्यों (L-BFGS, C & W, stAdv) पर पुनरावृत्ति अनुकूलन प्रक्रिया पर आधारित हैं, चाहे L-BFGS, एडम (किंग्मा और बा, 2014), या अन्य अनुकूलन विधियों का उपयोग कर रहे हों। अनुकूलन समस्या के रूप में प्रतिकूल परिस्थितियों में मॉडलिंग का लाभ हमलावर को उद्देश्य समारोह के लिए अधिक प्रतिकूल मानदंडों में मोड़ने की अनुमति देता है। इसके अलावा, उद्देश्य कार्यों (एटीएन) के लिए अनुकूलन करने के लिए एक सामान्य परिवर्तन मॉडल को प्रशिक्षित करके प्रतिकूल उदाहरण भी उत्पन्न किए जा सकते हैं।
  • हम प्रतिकूल उदाहरणों की हस्तांतरणीयता संपत्ति पर भरोसा कर सकते हैं और ब्लैकबॉक्स मॉडल (ब्लैकबॉक्स हमले) द्वारा लेबल किए गए सिंथेटिक डेटासेट पर प्रशिक्षित एक स्थानापन्न मॉडल पर हमला करके एक ब्लैकबॉक्स मॉडल पर हमला कर सकते हैं।
  • अंत में, एक अन्य ब्लैकबॉक्स हमले को डेटापॉइंट से शुरू करके प्राप्त किया जा सकता है जो लक्ष्य वर्ग डेटा के कई गुना के बाहर है और प्रतिकूल और गैर-प्रतिकूल वर्ग के बीच निर्णय सीमा के करीब जाने की कोशिश कर रहा है, अस्वीकृति नमूना विधि के माध्यम से निर्णय के साथ यादृच्छिक चलना प्रदर्शन कर रहा है। (सीमा पर हमला)।

मुझे उम्मीद है कि यह लेख पढ़ने के लिए उपयोगी है, और यह प्रतिकूल मशीन सीखने के क्षेत्र में और अधिक रुचि जगाता है। अगली पोस्ट में, हम कई रक्षा विधियों और इनमें से अधिकांश बचावों को कैसे दरकिनार किया जा सकता है (a मेटा-एडवर्सर्सियल लर्निंग ’; प्रतिकूल आक्रमण तकनीक उत्पन्न करने के लिए सीखना; जो प्रतिकूल बचाव को मूर्ख बनाते हैं!)। यदि मुझे कुछ याद आ रहा है, या यदि आपके पास अगले पोस्ट के लिए कोई विशेष अनुरोध है, तो कृपया टिप्पणी अनुभाग में सुझाव प्रदान करने के लिए स्वतंत्र महसूस करें। अगली बार तक!

अनकी जू, आर्ची डे बर्कर, मॉर्गन ग्यूगन, और मूल्यवान टिप्पणियों और चित्रों के लिए वी-वी लिन के लिए धन्यवाद!