डिफरेंशियलली प्राइवेट फेडरेटेड लर्निंग: ए क्लाइंट लेवल पर्सपेक्टिव

रॉबिन गीयर, टैसिलो क्लेन और मोइन नबी (एमएल रिसर्च बर्लिन)

आम तौर पर, मानक मशीन लर्निंग दृष्टिकोण एक केंद्रीय स्थान में प्रशिक्षण डेटा स्टोर करने की आवश्यकता पैदा करते हैं। हालांकि, मशीन लर्निंग में गोपनीयता संरक्षण के हालिया उभार के साथ, अनुसंधान के एक नए क्षेत्र, जिसे फेडरेटेड लर्निंग के रूप में जाना जाता है, ने वैश्विक रुचि जगाई है। इस ब्लॉग पोस्ट में हम इस क्षेत्र में गोपनीयता समस्या से निपटने के लिए तीन अलग-अलग तरीकों को पेश करते हुए अपने पिछले ब्लॉग पोस्ट के बाद गोपनीयता-संरक्षण सहयोगी मशीन लर्निंग के बारे में अपना पहला परिणाम प्रस्तुत करते हैं।

हालाँकि, हमारे प्रस्तावित दृष्टिकोण में गहराई से जाने से पहले, अवधारणा के मुख्य बिंदुओं को पुनः प्राप्त करें। फ़ेडरेटेड लर्निंग का विचार स्पष्ट रूप से डेटा साझा करने या प्रशिक्षण भागीदारी को छुपाने के बिना मशीन लर्निंग मॉडल को प्रशिक्षित करना है। यह परिदृश्य पूरे उद्योग के साथ-साथ व्यक्तिगत स्तर पर भी प्रासंगिक है और ऐसे परिदृश्यों में विशेष रूप से महत्वपूर्ण है जहां दुर्भावनापूर्ण ग्राहक किसी अन्य ग्राहक की भागीदारी का अनुमान लगाना चाहते हैं।

एक साधारण उदाहरण के रूप में, कई अस्पतालों और बीमा कंपनियों के सहयोग से अपने व्यक्तिगत रोगी और ग्राहक के डेटा के साथ एक सार्वभौमिक मॉडल का प्रशिक्षण करने पर विचार करें ताकि वर्तमान बीमारियों, निदान और चिकित्सा लागत का बेहतर अवलोकन हो सके। अब कल्पना कीजिए कि भाग लेने वाले बीमा में से एक इस सहयोग में शामिल होना चाहता है ताकि एक योगदान देने वाले अस्पताल के डेटा सेट से संबंधित रोगियों के बारे में विशिष्ट विवरण का पता लगाया जा सके। यदि अस्पताल ने सामान्य मशीन लर्निंग प्रशिक्षण प्रक्रिया के दौरान गोपनीय डेटा का खुलासा किया, तो इसके रोगियों की गोपनीयता का उल्लंघन किया जाएगा, जबकि बीमा कुछ रोगियों को अधिक कीमत वसूलने के लिए इन आधारों का उपयोग कर सकता है।

एक और संभावित स्थिति तब सामने आती है जब ग्राहक उस सेवा से सदस्यता समाप्त करना चाहते हैं जिसके लिए उन्होंने मॉडल पर बहुत विशिष्ट डेटा फ़िंगरप्रिंट को पीछे छोड़ते हुए बिना मॉडल प्रशिक्षण के योगदान दिया है। अस्पतालों और बीमा के उदाहरण पर वापस जाएं, अगर एक बीमा मॉडल के प्रशिक्षण में योगदान करना बंद करना चाहता था, तो इसकी वापसी से कुछ गोपनीय ग्राहक जानकारी का पता चलेगा जिसका उपयोग मॉडल में अन्य प्रतिस्पर्धी बीमा के लाभ के लिए किया जा सकता है।

संक्षेप में, मशीन सीखने के संदर्भ में गोपनीयता को सुरक्षित रखने के लिए, हमें मॉडल में योगदान करने वाले व्यक्तिगत ग्राहकों को पीछे हटाने की संभावना को रोकना चाहिए। यह विशेष रूप से महत्वपूर्ण हो जाता है, जब मॉडल के लिए प्रशिक्षण उदाहरणों की संख्या बहुत बड़ी नहीं है। इसलिए हमारे निष्कर्ष अस्पतालों या बीमा जैसे संस्थानों के लिए विशेष चिंता का विषय हैं जो सामान्यीकृत भविष्यवाणी मॉडल से लाभ उठाना चाहते हैं लेकिन उच्च ग्राहक उतार-चढ़ाव का अनुभव करते हैं और साथ ही साथ मजबूत गोपनीयता आवश्यकताओं के लिए बाध्य हैं।

फेडरेटेड लर्निंग - कुछ विवरण

हम एक संयुक्त शिक्षण सेटिंग पर विचार करते हैं, जहां एक विश्वसनीय क्यूरेटर कई ग्राहकों द्वारा विकेंद्रीकृत फैशन में अनुकूलित पैरामीटर एकत्र करता है, जिसका डेटा आमतौर पर गैर-आईआईडी, असंतुलित और बड़े पैमाने पर वितरित किया जाता है। परिणामी मॉडल को फिर से सभी ग्राहकों को वितरित किया जाता है, अंत में एक संयुक्त प्रतिनिधि मॉडल में परिवर्तित किया जाता है, जिसके बिना ग्राहकों को डेटा को स्पष्ट रूप से साझा करना पड़ता है।

हर नए संचार दौर के लिए और एक नए केंद्रीय मॉडल के आवंटन के लिए, ग्राहकों के डेटा लीक के बारे में जानकारी। नतीजतन, लीक की गई जानकारी और इस प्रकार प्रशिक्षण के दौरान गोपनीयता की हानि होती है। हालांकि यह संभावना असीम रूप से छोटी हो सकती है, मशीन लर्निंग मॉडल को आमतौर पर कई राउंड के दौरान प्रशिक्षित किया जाता है, जिसका अर्थ है कि इस तरह की गोपनीयता रिसाव में काफी वृद्धि हो सकती है।

इस सेटिंग में, क्यूरेटर और क्लाइंट के बीच संचार सीमित हो सकता है और / या इंटरसेप्शन के लिए कमजोर हो सकता है, यही वजह है कि फेडरेटेड लर्निंग का उद्देश्य क्लाइंट और क्यूरेटर के बीच न्यूनतम सूचना के साथ एक मॉडल का निर्धारण करना है। हालांकि, इस न्यूनतम ओवरहेड को प्राप्त करने के बावजूद, प्रोटोकॉल अभी भी विभेदक हमलों के लिए कमजोर है, जो किसी भी पार्टी से उत्पन्न शिक्षण प्रक्रिया के दौरान योगदान दे सकता है। इस तरह के हमले में, प्रशिक्षण के दौरान एक ग्राहक के योगदान के साथ-साथ उनके डेटा सेट के बारे में जानकारी वितरित मापदंडों के विश्लेषण के माध्यम से प्रकट की जा सकती है।

इस समस्या को ध्यान में रखते हुए, हमने फेडरेटेड लर्निंग को संरक्षित करने के लिए क्लाइंट-साइडेड डिफरेंशियल प्राइवेसी के लिए एक एल्गोरिथम प्रस्तावित किया है। उद्देश्य प्रशिक्षण के दौरान ग्राहकों के योगदान को छिपाने के लिए है, गोपनीयता हानि और मॉडल प्रदर्शन के बीच व्यापार बंद को संतुलित करता है। हमारे पहले व्यवहार्यता अध्ययन के परिणाम बताते हैं कि भाग लेने वाले ग्राहकों की बढ़ती संख्या के साथ, हमारी प्रस्तावित प्रक्रिया क्लाइंट-स्तरीय अंतर गोपनीयता को और अधिक अनुकूलित कर सकती है।

हमारा दृष्टिकोण

मशीन लर्निंग एल्गोरिदम को इतना आकर्षक बनाता है कि वे स्पष्ट रूप से प्रोग्राम किए बिना डेटा से पैटर्न का अनुमान लगाकर अपने भविष्यवाणी मॉडल को प्राप्त करते हैं। नतीजतन, ये एल्गोरिदम डेटा में संलग्न जानकारी पर बहुत अधिक निर्भर हैं, जो गोपनीयता की सुरक्षा के लिए उन्हें कुछ गुणों के साथ संलग्न करने की आवश्यकता पैदा करता है।

यह वह जगह है जहाँ अंतर गोपनीयता की परिभाषा खेल में आती है। इसे डेटा में बदलाव के संबंध में संवेदनशीलता के उपाय के रूप में देखा जा सकता है। विशेष रूप से, यह प्रभाव उपस्थिति की सीमाओं के बारे में एक गारंटी देता है या एक व्यक्तिगत डेटा आइटम की अनुपस्थिति एल्गोरिथ्म के अंतिम आउटपुट पर हो सकता है। अंतःक्रियात्मक रूप से, एक मशीन लर्निंग एप्रोच जो अंतरिम रूप से निजी है, एक आइटम को प्रशिक्षण सेट से हटा दिए जाने की स्थिति में, अपने पूर्वानुमानात्मक व्यवहार को महत्वपूर्ण रूप से नहीं बदलेगा। पूर्व उदाहरण का उल्लेख करते हुए, इसका मतलब यह होगा कि सभी योगदान बीमा और अस्पताल अभी भी सार्वभौमिक मॉडल के उच्च प्रदर्शन और सूचना सटीकता पर भरोसा कर सकते हैं, हालांकि अस्पतालों में से एक एक निश्चित रोगी के बारे में जानकारी प्रदान करने या बाहर निकालने से बचता है।

प्रस्तावित दृष्टिकोण में, हम एक एकल डेटा आइटम से डेटा पर विचार करके अंतर को एक नए स्तर पर ले जाना चाहते हैं और इस तरह संवेदनशीलता को कसते हैं। हम यह सुनिश्चित करना चाहते हैं कि किसी ग्राहक को उसके सभी डेटा आइटमों को हटाने से एल्गोरिदम के परिणाम को महत्वपूर्ण रूप से प्रभावित न किया जाए। हमारे उदाहरण में इसका मतलब है कि यदि बड़ी संख्या में रोगियों के साथ एक अस्पताल केंद्रीय मॉडल के प्रशिक्षण में योगदान करना बंद करने का फैसला करता है, तो यह अन्य भाग लेने वाले संस्थानों के काम को नुकसान नहीं पहुंचाएगा।

डॉट्स को कनेक्ट करना - फ़ेडरेटेड प्राइवेसी को फ़ेडरेटेड लर्निंग को संरक्षित करना

संभावित अंतर के हमलों के खिलाफ संघटित अधिगम प्रोटोकॉल की रक्षा के लिए, एक तथाकथित गोपनीयता लेखाकार एकांत दहलीज तक पहुंचने के बाद होने वाली गोपनीयता हानि का ट्रैक रखता है और प्रशिक्षण रोक देता है।

इस संदर्भ में, हम एक यादृच्छिक तंत्र लागू करने का प्रस्ताव करते हैं, जिसमें दो चरण होते हैं: प्रत्येक संचार दौर की शुरुआत में, योगदान करने के लिए ग्राहकों का एक यादृच्छिक सबसेट चुना जाता है। केवल ये ग्राहक केंद्रीय मॉडल प्राप्त करते हैं और अपने अपडेट साझा करते हैं। फिर, एक गौसियन तंत्र का उपयोग नए केंद्रीय मॉडल को आवंटित करने से पहले अपडेट के औसत को विकृत करने के लिए किया जाता है। यह एकत्रीकरण के भीतर और इस प्रकार संपूर्ण विकेंद्रीकृत सीखने की प्रक्रिया के भीतर एक ग्राहक के योगदान को छिपाने के लिए किया जाता है।

चित्र 2 प्रस्तावित दृष्टिकोण को अपनाते हुए एक संचार दौर दिखाता है। इस अनुकूलित फ़ेडरेटेड लर्निंग सेटिंग में, एक रैंडम क्लाइंट संचार दौर के दौरान योगदान करना बंद कर देता है जबकि अन्य क्लाइंट मॉडल को अपडेट करते रहते हैं। हालांकि, एक योगदानकर्ता की वापसी से न तो डेटा का रहस्योद्घाटन होता है और न ही यह मॉडल के प्रदर्शन को नुकसान पहुंचाता है।

प्रयोगात्मक सेटअप

हम अपने प्रस्तावित एल्गोरिथ्म का परीक्षण करने के लिए विकेंद्रीकृत सेटिंग का अनुकरण करते हैं। छवि क्लासिफायर मॉडल को प्रशिक्षित करने की हमारी पसंद केंद्रीयकृत सीखने में कला तकनीकों की स्थिति के खिलाफ प्रोटोकॉल को बेंचमार्क करने की अनुमति देती है। फ़ेडरेटेड, नॉन-आईड सेटअप यह सुनिश्चित करता है कि प्रत्येक ग्राहक को केवल सीमित संख्या में नमूने मिले, जहाँ प्रत्येक ग्राहक के नमूने केवल समग्र वर्गों के एक अंश से जुड़े। इस तरह के सेटअप में, एक एकल क्लाइंट कभी भी एक मॉडल को प्रशिक्षित नहीं कर पाएगा जो सभी वर्गों को अकेले व्यक्तिगत डेटा दिए गए हों। हम अलग-अलग निजी संघीकृत सीखने की प्रक्रिया के लिए दो आवश्यकताएँ निर्धारित करते हैं:

  • क्लाइंट को संयुक्त रूप से एक मॉडल सीखने में सक्षम करें जो उच्च वर्गीकरण सटीकता तक पहुंचता है
  • सीखने के दौरान, गोपनीयता को संरक्षित करने के लिए एक व्यक्तिगत ग्राहक क्या डेटा छिपा रहा है

हमारी खोजें

अंतत:, हमारा काम दो योगदान देता है। सबसे पहले, हम प्रदर्शित करते हैं कि जब पर्याप्त संख्या में पार्टियां शामिल होती हैं, तो हमारा एल्गोरिथ्म केंद्रीकृत शिक्षण सेटअप में उन लोगों की तुलना में उच्च मॉडल सटीकता प्राप्त करता है। उसी समय, हमारा प्रस्तावित मॉडल क्लाइंट स्तर पर अंतर निजी रहता है। यद्यपि अन्य अध्ययन समान परिणाम दिखाते हैं, हमारे प्रायोगिक सेटअप तत्व-स्तरीय गोपनीयता उपायों के अपने अलग एकीकरण के कारण भिन्न होते हैं। दूसरा, हम मॉडल प्रदर्शन को और बढ़ाने के लिए विकेंद्रीकृत सीखने की प्रक्रिया के दौरान अंतर-गोपनीयता संरक्षण तंत्र के एक गतिशील अनुकूलन का सुझाव देते हैं। हालांकि यह केंद्रीकृत सेटिंग्स में अंतर गोपनीयता को लागू करने वाले नवीनतम परिणामों में संशोधन करता है, हम तर्क देते हैं कि एक संघटित शिक्षण सेटिंग में ढाल शोर और बैच आकार के लिए अलग-अलग संवेदनशीलता प्रदर्शित करते हैं।

सामान्य तौर पर, हमारे निष्कर्ष विविध उद्योगों पर लागू होते हैं। किसी दिन, अध्ययन के दृष्टिकोण से कंपनियों को संयुक्त रूप से भविष्यवाणी मॉडल सीखने में मदद मिल सकती है या हमारे उदाहरण के रूप में, नैदानिक ​​मॉडल को प्रशिक्षित करने के लिए कई अस्पतालों की मदद कर सकते हैं। प्रस्तावित एल्गोरिदम इन विविध अभिनेताओं को डेटा को केंद्रीकृत करने या निजी जानकारी को उजागर करने का जोखिम उठाए बिना कई सहकर्मी योगदानकर्ताओं के डेटा के साथ सीखे गए सार्वभौमिक मॉडल से लाभान्वित करने की अनुमति देगा।

हमने NIPS 2017 कार्यशाला में विकेंद्रीकृत शिक्षण में गोपनीयता संरक्षण में अपनी प्रगति प्रस्तुत की: फोन और अन्य उपभोक्ता उपकरणों पर मशीन लर्निंग। नीचे आप NIPS पर प्रस्तुत हमारा पोस्टर देख सकते हैं। अधिक जानकारी यहां पाई जा सकती है।

हमारे काम के बारे में अधिक जानकारी के लिए कृपया मूल अध्ययन देखें: https://arxiv.org/abs/1712.07557