स्थानांतरण सीखना - भाग 1

परिचय

ट्रांसफर लर्निंग (टीएल) क्या है और यह शास्त्रीय मशीन लर्निंग (एमएल) से कैसे अलग है?

एमएल का बड़ा झूठ यह है कि प्रशिक्षण डेटा का वितरण डेटा के वितरण के समान है जिस पर मॉडल का उपयोग होने जा रहा है। क्या होगा यदि इस धारणा का उल्लंघन किया जाता है कि डेटा अलग-अलग स्थान पर अलग-अलग वितरण है?

जब पर्याप्त डेटा उपलब्ध होता है, तो कोई बस नए डेटा पर एक मॉडल को पुनः प्राप्त कर सकता है और पुराने डेटा को पूरी तरह से त्याग सकता है। यह हमेशा संभव नहीं है। हालाँकि, सुधार करने का एक तरीका है। यदि यह ज्ञात है कि प्रशिक्षण डेटा और अन्य डेटा के बीच एक संबंध है, तो अन्य डेटा के लिए मॉडल पर प्रशिक्षण डेटा पर प्राप्त ज्ञान (या स्थानांतरण सीखने) में मदद मिल सकती है।

ट्रांसफर लर्निंग शास्त्रीय एमएल सेटअप से अलग है: एक सेटिंग में सीखने के बजाय, एक सेटिंग में सीखने से दूसरे सेटिंग में सीखने में सुधार करने के लिए पुन: उपयोग किया जाता है। ट्रांसफर लर्निंग, मानव शिक्षार्थियों को उनके मौजूदा ज्ञान और कौशल का लाभ उठाने के तरीके से प्रेरित है: एक मानव जो साहित्य पढ़ना जानता है, वह वैज्ञानिक कागजात को पढ़ने की तुलना में सफल होने की अधिक संभावना है, जो किसी व्यक्ति को नहीं जानता कि वह कैसे पढ़ना चाहता है। पर्यवेक्षित अधिगम के संदर्भ में, स्थानांतरण अधिगम से तात्पर्य है कि एक सेटिंग में सीखी गई विशेषताओं और लेबलों के बीच निर्भरता संरचना के ज्ञान का पुन: उपयोग करने की क्षमता एक अन्य सेटिंग में निर्भरता संरचना के सुधार को बेहतर बनाती है। डेटास्वाती में, हम विभिन्न कारखानों से समय-श्रृंखला डेटा पर लागू इस प्रकार के हस्तांतरण सीखने में विशेष रूप से रुचि रखते हैं और मैंने व्यक्तिगत रूप से इन समस्याओं पर काम करते हुए अपने समय का उचित हिस्सा खर्च किया है।

इस पोस्ट में, मैं ट्रांसफर लर्निंग के विभिन्न पहलुओं की समीक्षा करूंगा, लेकिन सबसे पहले, शास्त्रीय पर्यवेक्षित मशीन लर्निंग सेटिंग के बारे में कुछ शब्द।

सुपरवाइज्ड मशीन लर्निंग: एक त्वरित पुनरावृत्ति

हमारे पास एक डेटासेट डी है जिसमें फ़ीचर वैक्टर (x 𝒳 and) और संबंधित लेबल (y ∈ =): D = {(xi, yi): i = 1,…, m} के नमूने हैं। D में प्रशिक्षण के उदाहरणों के सेट होते हैं। D = X = {xi: i = 1,…, m}, और संबंधित लेबल का सेट D | Y = {yi: i = 1,…, m} है। यहाँ m नमूना आकार है। सभी जोड़े (x, y) को स्वतंत्र रूप से एक ही संयुक्त वितरण पी (एक्स, वाई) (आईआईडी धारणा) माना जाता है जो यादृच्छिक चर X और Y के बीच निर्भरता को दर्शाता है। दूसरे शब्दों में, (xi, yi) सभी के लिए (एक्स, वाई) ization पी (एक्स, वाई) का अहसास। हमारा लक्ष्य एक फ़ंक्शन जानने के लिए डी का उपयोग करना है: 𝒴 → h ("परिकल्पना के लिए एच)" ताकि h, x और y के बीच सच्चे संबंध का अनुमान लगाता है, जो P (Y | X = x) का कुछ सारांश है, उदाहरण के लिए h (x) x E (Y | X = x)। जब हम एक अच्छी h की खोज कर रहे होते हैं, तो हम अपनी खोज को कार्यों के कुछ वर्ग e (रैखिक मॉडल के वर्ग), h ℋ a के लिए विवश करते हैं। यदि and बहुत जटिल नहीं है और नमूना आकार मीटर काफी बड़ा है, तो हम "अच्छा" h (उदाहरण के लिए Empirical Risk Minimization का उपयोग करके सीख सकते हैं:

ईआरएम एल्गोरिथ्म

, जहाँ l कुछ हानि कार्य है) ताकि h, x और y के बीच के वास्तविक संबंधों का एक अच्छा अनुमान प्रदान करे, न केवल (x, y) y D पर, बल्कि P (X) से नमूना लिए गए अन्य डेटा (x, y) पर वाई)।

यदि हमारे पास पर्याप्त डेटा नहीं है या हमारे पास लेबल नहीं हैं तो क्या होगा? क्या कोई उम्मीद है?

क्या हो अगर…

  • ... हमारे पास कई अलग-अलग डेटासेट हैं, लेकिन समान एक्स-वाई निर्भरता संरचना के साथ?
  • ... हमारे पास इनमें से कुछ डेटासेट के लिए केवल लेबल हैं, लेकिन अन्य नहीं हैं और हम कोई लेबल उपलब्ध नहीं होने पर भविष्यवाणियां करना चाहते हैं?
  • … हम छोटे नमूने के आकार के साथ एक डेटासेट पर निर्भरता सीखना चाहते हैं जब हमारे पास एक बड़ा डेटा आकार और इसी तरह का एक और डेटासेट है, लेकिन अलग-अलग निर्भरता संरचना है?
  • ... हम इन सभी का एक संयोजन है?

वास्तव में, एक उम्मीद है, और यह कहा जाता है ...
 ... सीखने का स्थानांतरण।

पैन, यांग, और अन्य (2010) और वीस, खोशगॉफ्टर, और वांग (2016) डीप लर्निंग क्रेज से पहले ट्रांसफर लर्निंग का एक बड़ा अवलोकन देते हैं। पैन, यांग, और अन्य (2010) डोमेन 𝒟 को परिभाषित करता है एक फीचर स्पेस के रूप में जिसे इस स्पेस पर संभावना वितरण के साथ एक साथ माना जाता है 𝒳 = (𝒟, P (X))। एक कार्य को औपचारिक रूप से (= (f, f) के रूप में परिभाषित किया गया है, यहाँ f सही है, लेकिन अज्ञात (और संभवतः स्टोकेस्टिक) फ़ंक्शन f: 𝒴 → 𝒴 है कि हम h ℋ के साथ अनुमानित करने की कोशिश कर रहे हैं।

बुनियादी प्रकार के ट्रांसफर लर्निंग (टीएल) को परिभाषित करने के लिए, आइए एक सरलीकृत सेट पर विचार करें, जब हमारे पास प्रति डोमेन एक कार्य के साथ सिर्फ दो डोमेन हैं: स्रोत डोमेन 𝒟S और कार्य ,S, और लक्ष्य डोमेन andT और कार्य .T। इस सरल सेटिंग में, टीएल का उद्देश्य 𝒟T, 𝒯T के अलावा 𝒟S, 𝒯S में ज्ञान का उपयोग करके fT सीखने में सुधार करना है, जब ≠S TLT या TLS TLT।

नीचे दी गई तालिका शास्त्रीय एमएल की तुलना में टीएल के प्रकारों को सारांशित करती है।

ट्रांसफर लर्निंग के प्रकार: आगमनात्मक, पारगमन, और अप्रकाशित

अतिरिक्त वर्गीकरण सुविधा रिक्त स्थान के आधार पर किया जा सकता है:

सजातीय और विषम स्थानांतरण अधिगम

ट्रांसफर लर्निंग का सबसे सामान्य मामला तब होता है जब फीचर स्पेस और डिस्ट्रिब्यूशन दोनों अलग-अलग होते हैं और साथ ही टास्क भी अलग होते हैं।

पैन, यांग और अन्य (2010) "क्या स्थानांतरण करें" प्रश्न के आधार पर टीएल के दृष्टिकोणों को समूह:

  • इंस्टेंस आधारित ट्रांसफर लर्निंग। यह माना जाता है कि लक्ष्य डोमेन में स्रोत डोमेन के कुछ डेटा का पुन: उपयोग किया जा सकता है। महत्व नमूनाकरण और उदाहरण पुनः लोडिंग का उपयोग यहां किया जाता है।
  • फ़ीचर-प्रतिनिधित्व हस्तांतरण। आर (एक्स) और वाई के बीच निर्भरता को सुविधाजनक बनाने के लिए एक फीचर प्रतिनिधित्व आर सीखा गया है। इसका उपयोग लक्ष्य कार्य पर प्रदर्शन को बेहतर बनाने के लिए किया जाता है। तंत्रिका नेटवर्क के संदर्भ में, कोई भी स्रोत डोमेन में एक पर्यवेक्षित मॉडल को प्रशिक्षित कर सकता है और फिर लक्ष्य डोमेन में डेटा को बदलने के लिए अंतिम परतों में से एक से प्रतिनिधित्व ले सकता है और फिर इस रूपांतरित डेटा पर दूसरे मॉडल को प्रशिक्षित कर सकता है।
  • पैरामीटर स्थानांतरण। स्रोत और लक्ष्य कार्यों को कुछ मापदंडों या पुजारियों को साझा करने के लिए माना जाता है। एक साधारण मामले में जब hS, hT h h, hS = f (x; θS), hT = f (x; θT) होता है, तो इसका मतलब है कि isS आंशिक रूप से hT के समान है। तंत्रिका नेटवर्क के संदर्भ में, कोई वीजीजी जैसा दिखावा मॉडल ले सकता है और किसी के कार्य-विशिष्ट डेटा ()S के एक छोटे से हिस्से को पुनः प्राप्त करना) पर अंतिम परतों को फिर से लिख सकता है।

हाल के टीएल ने दत्तास्वती समस्याओं के लिए प्रासंगिक घटनाक्रम

इन पदों की श्रृंखला में, मैं टीएल में कुछ हालिया घटनाक्रमों की समीक्षा करूंगा जिनमें डोमेन अनुकूलन, कुछ-शॉट सीखना और बहु-डोमेन स्थानांतरण सीखने की सबसे सामान्य सेटिंग शामिल है।

डोमेन अनुकूलन

सजातीय पारगमन टीएल (=S = 𝒳T = of) के ढांचे में, डोमेन अनुकूलन (एक संयुक्त वितरण से डेटा पर एक मॉडल का प्रशिक्षण और एक दूसरे से डेटा पर इसका उपयोग करना) ने पिछले एक दशक में विशेष रूप से ध्यान दिया है। डीप लर्निंग के संदर्भ में।

एक अक्सर रूपांतरण ϕS, :T: 𝒳̃ → that खोजना चाहता है ताकि परिवर्तित लक्ष्य डेटा का वितरण रूपांतरित डेटा के वितरण के समान हो, जो कि P (ϕS (X)) = P (ϕT (X)) के लिए है। X X is, या विशेष मामला, जब परिवर्तन केवल स्रोत डेटा पर लागू होता है: ∈S (X) X P (X)। यहाँ आशा यह है कि हम कुशलतापूर्वक रूपांतरित स्रोत डेटा पर प्रशिक्षित मॉडल को रूपांतरित लक्ष्य डेटा पर लागू कर सकते हैं।

डोमेन अनुकूलन को वर्गीकरण (बेन-डेविड एट अल 2007, 2010) और प्रतिगमन (कोर्टेस और मोहरी 2011) समस्याओं के संदर्भ में सैद्धांतिक रूप से जांच की गई थी। बेन-डेविड एट अल। (2007) ने उन परिस्थितियों का अध्ययन किया जिनके तहत स्रोत डोमेन डेटा पर प्रशिक्षित एक क्लासिफायर का उपयोग लक्ष्य डोमेन में किया जा सकता है। उन्होंने लक्ष्य डोमेन में त्रुटि पर ऊपरी बाउंड को सिद्ध किया जो स्रोत डोमेन में त्रुटि के एक फ़ंक्शन के रूप में व्यक्त किया गया था। उन्होंने बेन-डेविड एट अल में अपने विश्लेषण को आगे बढ़ाया। (2010)। सारांश में, सिद्धांत बताता है कि एक प्रभावी डोमेन अनुकूलन के लिए, किसी को एक मॉडल को एक डेटा प्रतिनिधित्व पर प्रशिक्षित करने की आवश्यकता होती है जिसमें से स्रोत और लक्ष्य डोमेन के बीच भेदभाव करना असंभव है।

मैं पहले कुछ सामान्य दृष्टिकोणों का उल्लेख करता हूं।

सामान्य दृष्टिकोण

डोमेन अनुकूलन के लिए एक बहुत ही सरल दृष्टिकोण Daumé III (2009) द्वारा प्रस्तावित किया गया था। Daumé III (2009) ने डोमेन अनुकूलन समस्या को एक साधारण डेटा वृद्धि (जीरो के साथ फीचर्स को भरना या फिल करना) के लिए स्रोत और लक्ष्य डोमेन दोनों के लिए एक सुपरवाइज़िंग लर्निंग समस्या को रूपांतरित किया और फिर दोनों डोमेन से एक साथ खींचे गए संवर्धित डेटा पर एक मॉडल को प्रशिक्षित किया। हालांकि उनके दृष्टिकोण को लक्ष्य डोमेन (DT data Y ∅ data) में लेबल डेटा की आवश्यकता होती है।

लक्ष्य डोमेन में लेबल किए गए डेटा के बिना, कोई ऐसे रूपांतरण पा सकता है जो स्रोत और लक्ष्य वितरण को संरेखित करता है। सन, फेंग, और साएंको (2016) ने सहसंबंध एलाइनमेंट (कोरल) एल्गोरिदम का प्रस्ताव किया जो स्रोत और लक्ष्य वितरण के दूसरे क्रम के आंकड़ों को संरेखित करता है। सन, फेंग, और साएंको (2016) ने दिखाया कि कोरल कुछ आधुनिक डीप लर्निंग आधारित दृष्टिकोणों को बेहतर बना सकता है।

सी, ताओ, और गेंग (2010) ने क्रॉस-डोमेन के अनियंत्रित आयामी घटाव के लिए ब्रैगमैन डाइवर्जेंस-आधारित नियमितीकरण का उपयोग किया और पीसीए, फिशर के रेखीय विभेदक विश्लेषण (एफएलडीए), स्थानीयता संरक्षण अनुमानों (एलपीपी), सीमांत फिशर विश्लेषण विश्लेषण के प्रस्तावित-लर्निंग-अवगत संस्करण। (MFA), और भेदभावपूर्ण स्थानीयता संरेखण (DLA)। स्रोत और लक्ष्य डोमेन में अनुमानित डेटा के वितरण के बीच अंतर को कम करने के लिए ब्रेगमैन डाइवर्जेंस का उपयोग किया गया था।

उनके स्थानांतरण घटक विश्लेषण (TCA) में, पैन एट अल। (2011) वितरण दूरी की माप के रूप में अधिकतम मीन विसंगति (MMD) का उपयोग किया। एमएमडी का उपयोग डेटासेट के परिवर्तन (ट्रांसफर घटकों) को सीखने के लिए किया गया था ताकि वितरण दूरी कम से कम हो। लंबा एट अल। (2013) ने संयुक्त वितरण अनुकूलन (JDA) प्रस्तावित किया जो सशर्त वितरण को कम करने के उद्देश्य को शामिल करके TCA को सामान्य करता है।

हाल ही में, ऑप्टिमल ट्रांसपोर्ट का उपयोग डोमेन अनुकूलन (कोर्टी, फ्लेमरी, और ट्यूया 2014) के लिए सफलतापूर्वक किया गया था; कोर्टी, फ्लेमरी, ट्यूया, एट अल। 2017; कोर्टी, फ्लेमरी, हैबर्ड, एट अल। 2017)। इष्टतम परिवहन वितरण (Peyré, Cuturi, और अन्य 2017) के बीच Wasserstein दूरी को कम करके एक डोमेन में दूसरे डोमेन में डेटा का परिवर्तन पाता है।

मिश्रण मॉडल-आधारित सीखने के संदर्भ में, बेनील एट अल। (2012) ने स्रोत डेटा मैप करने की एक विधि प्रस्तावित की ताकि डेटा को परिवर्तित करने वाला वितरण लक्ष्य को मॉडल करने वाले वितरण के बराबर हो।

ध्यान लगा के पढ़ना या सीखना

ग्लोरोट, बोर्डस, और बेंगियो (2011) ने भावना वर्गीकरण के संदर्भ में फीचर प्रतिनिधित्व आधारित डोमेन अनुकूलन का उपयोग किया। चार अलग-अलग डोमेन में डेटा को शामिल करने वाले अमेज़ॅन डेटासेट के घटे हुए संस्करण का उपयोग करते हुए, उन्होंने सबसे पहले सभी डोमेन से डेटा को एक साथ खींचा और बैग-ऑफ-वर्ड्स प्रतिनिधित्व के स्टैक्ड डेनोइज़िंग ऑटोएन्कोडर (विन्सेन्ट एट अल। 2008) का उपयोग करके एक असुरक्षित सुविधा प्रतिनिधित्व सीखा। डेटा। फिर, डोमेन के प्रत्येक स्रोत-लक्ष्य जोड़ी के लिए, उन्होंने स्रोत डेटा के प्रतिनिधित्व पर बाइनरी एसवीएम क्लासिफायर को प्रशिक्षित किया और लक्ष्य डेटा के प्रतिनिधित्व पर इसका इस्तेमाल किया।

गेनिन और लेम्पिट्स्की (2014) ने तंत्रिका को एक नेटवर्क वास्तुकला का प्रस्ताव दिया जो कि एक प्रशिक्षण प्रक्रिया के भीतर डोमेन अनुकूलन और गहरी सुविधा सीखने को मिलाया। इसी प्रकार प्रतिकूल प्रशिक्षण (गुडफेलो एट अल। 2014) में, उन्होंने एक साथ दो मॉडलों को प्रशिक्षित किया है i) डोमेन क्लासिफायर नेटवर्क को परिवर्तित स्रोत और लक्ष्य डेटा के बीच भेदभाव करने के लिए, और ii) पूर्वसूचक नेटवर्क जिसे स्रोत के साथ-साथ लेबल की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। "मूर्ख" डोमेन क्लासिफायरियर (अपने नुकसान फ़ंक्शन में एक नियमितीकरण शब्द के साथ प्राप्त)। हालांकि, उन्होंने डोमेन क्लासिफायर और प्रेडिक्टर के वैकल्पिक प्रशिक्षण के बजाय, ग्रेडिएंट रिवर्सल लेयर की शुरुआत की, जिसने एंड-टू-एंड ट्रेनिंग की अनुमति दी। उन्होंने कंप्यूटर विज़न डेटासेट की श्रृंखला पर अपने दृष्टिकोण की दक्षता का प्रदर्शन किया: एसवीएचएन, एमएनआईएसटी, और ट्रैफ़िक सिग्नल डेटासेट। अजाकन एट अल। (2014) कुशलतापूर्वक अमेज़ॅन समीक्षा भावना विश्लेषण डेटासेट के लिए एक समान मॉडल लागू किया। गानिन एट अल। (२०१६) इस तरह के तंत्रिका नेटवर्क के तथाकथित विश्लेषण को प्रस्तुत करता है, जिसे तथाकथित डोमेन-एडवरसियल अनुकूलन तंत्रिका नेटवर्क कहा जाता है।

जारी रहती है…

निरंतरता के लिए, कृपया यहां क्लिक करें। आपको दूसरा भाग शून्य / कुछ-शॉट सीखने की समीक्षा करने के लिए मिलेगा। आगामी तीसरे भाग में, मैं मल्टी-डोमेन ट्रांसफर लर्निंग की भी समीक्षा करूँगा, इसलिए यदि आप इस कहानी को याद नहीं करना चाहते हैं, तो हमें फ़ॉलो करना सुनिश्चित करें।

संदर्भ

अजाकान, हाना, पास्कल जर्मेन, ह्यूगो लॉरोले, फ्रांकोइस लावियोलेट और मारियो मारचंद। 2014. "डोमेन-एडवाइजररल न्यूरल नेटवर्क्स"। arXiv Preprint arXiv: 1412.4446।

बेन-डेविड, शाई, जॉन ब्लिटज़र, कोबी क्रैमर, एलेक्स कुल्सज़ा, फर्नांडो परेरा और जेनिफर वोर्टमैन वॉन। 2010. "विभिन्न डोमेन से सीखने का सिद्धांत।" मशीन लर्निंग 79 (1-2): 151–75।

बेन-डेविड, शाई, जॉन ब्लिटज़र, कोबी क्रैमर और फ़र्नांडो परेरा। 2007. "डोमेन अनुकूलन के लिए प्रतिनिधित्व का विश्लेषण।" तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिमों में, 137–44।

बेनील, फ़रीद, क्रिस्टोफ़ बिएरनेकी, चार्ल्स बाउवे्रन, जूलियन जैक्स और एलेक्जेंडर लूर्मे। 2012. सांख्यिकीय शिक्षण में ज्ञान हस्तांतरण के लिए पैरामीट्रिक लिंक मॉडल। नोवा पब्लिशर्स।

कोर्टेस, कोरिना, और मेहरीर मोहरी। 2011. "डोमेन अनुकूलन में प्रतिगमन।" एल्गोरिथ्म लर्निंग थ्योरी पर अंतर्राष्ट्रीय सम्मेलन में, 308-23। स्प्रिंगर।

कोर्टी, निकोलस, रेमी फ्लेमरी, अमौरी हैबार्ड, और एलेन राकोतोमामोंजी। 2017. "डोमेन वितरण के लिए संयुक्त वितरण इष्टतम परिवहन।" तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिमों में, 3730–9।

कोर्टी, निकोलस, रेमी फ्लेमरी और डेविस तुइया। 2014. "नियमित रूप से इष्टतम परिवहन के साथ डोमेन अनुकूलन।" डेटाबेस में मशीन लर्निंग और ज्ञान डिस्कवरी पर संयुक्त यूरोपीय सम्मेलन में, 274–89। स्प्रिंगर।

कोर्टी, निकोलस, रेमी फ्लेमरी, डेविस टिया और एलेन राकोतोमामोंजी। 2017. "डोमेन अनुकूलन के लिए इष्टतम परिवहन।" पैटर्न विश्लेषण और मशीन इंटेलिजेंस 39 (9) पर IEEE लेनदेन: 1853-65।

डौमे तृतीय, हाल। 2009. "निराशाजनक रूप से आसान डोमेन अनुकूलन।" arXiv Preprint arXiv: 0907.1815।

गानिन, यारोस्लाव और विक्टर लेम्पिट्स्की। 2014. "बैकप्रोपेगेशन द्वारा अनसपर्विज्ड डोमेन अडॉप्टेशन।" arXiv Preprint arXiv: 1409.7495।

गानिन, यारोस्लाव, एवगेनिया उस्तीनोवा, हाना अजाकान, पास्कल जर्मेन, ह्यूगो लॉरोले, फ्रांस्वा लावियोलेट, मारियो मारचंद और विक्टर लेम्पिट्स्की। 2016. "न्यूरल नेटवर्क्स का डोमेन-एडवांसरियल ट्रेनिंग।" जर्नल ऑफ़ मशीन लर्निंग रिसर्च 17 (1): 2096–30।

ग्लोरोट, ज़ेवियर, एंटोनी बोर्ड्स और योशुआ बेंगियो। 2011. "लार्ज-स्केल सेंटीमेंट वर्गीकरण के लिए डोमेन अनुकूलन: एक गहन शिक्षण दृष्टिकोण।" मशीन लर्निंग (आईसीएमएल -11) पर 28 वीं अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, 513–20।

गुडफेलो, इयान, जीन पौगेट-अबादी, मेहदी मिर्ज़ा, बिंग जू, डेविड वार्डे-फ़ार्ले, शेरजिल ओज़ेयर, आरोन कोर्टविल और योशुआ बेंगियो। 2014. "जनरल एडवरसरी नेट्स।" एडवांस इन न्यूरल इन्फॉर्मेशन प्रोसेसिंग सिस्टम्स, 2672-80।

लॉन्ग, मिंगशेंग, जियानमिन वांग, गुईगुआंग डिंग, जिआंगुंग सन और फिलिप एस यू। 2013. "संयुक्त वितरण अनुकूलन के साथ स्थानांतरण सुविधा सीखना।" कंप्यूटर विजन पर IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, 2200-2207।

पैन, सिनो जियालिन, आइवर डब्ल्यू त्सांग, जेम्स टी क्वोक और किआंग यांग। 2011. "स्थानांतरण घटक विश्लेषण के माध्यम से डोमेन अनुकूलन।" तंत्रिका नेटवर्क 22 पर IEEE लेनदेन (2): 199–210।

पैन, सिन्नो जियालिन, किआंग यांग और अन्य। 2010. "ट्रांसफर लर्निंग पर एक सर्वेक्षण।" IEEE लेन-देन ज्ञान और डेटा इंजीनियरिंग पर 22 (10): 1345–59।

पेरे, गेब्रियल, मार्को कतुरी, और अन्य। 2017. "कम्प्यूटेशनल इष्टतम परिवहन।"

सी, सी, दाचेंग ताओ, और बो गेंग। 2010. "ट्रांसफ़र सबस्पेस लर्निंग के लिए ब्रेगमैन डायवर्जन-आधारित नियमितीकरण।" ज्ञान और डेटा इंजीनियरिंग पर IEEE लेनदेन 22: 929-42।

सन, बाओचेन, जिआशी फेंग, और केट सेंको। 2016. "निराशाजनक रूप से आसान डोमेन अनुकूलन की वापसी।" AAAI में, 6: 8।

विंसेंट, पास्कल, ह्यूगो लॉरोले, योशुआ बेंगियो और पियरे-एंटोनी मंज़गोल। 2008. "ऑटोइंकोडर को प्रदर्शित करने के साथ रोबस्ट फीचर्स को एक्सट्रैक्ट करना और बनाना।" मशीन लर्निंग पर 25 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, 1096-1103। एसीएम।

वीस, कार्ल, तघी एम खोशगॉफ्टर और डिंगडिंग वांग। 2016. "ट्रांसफर लर्निंग का एक सर्वेक्षण।" जर्नल ऑफ़ बिग डेटा 3 (1): 9।