इसी तरह की होम अनुशंसाओं के लिए होम एम्बेडिंग

सांगडी लिन द्वारा

चित्र 1: ज़िलो पर समान घरेलू अनुशंसाएँ

सिफारिश प्रणाली अक्सर उच्च-गुणवत्ता की सिफारिशों को सीखने के लिए डेटा के स्रोत के रूप में उपयोगकर्ताओं से जुड़ाव पर निर्भर करती है। हालांकि, अमेज़ॅन, नेटफ्लिक्स और एयरबीएनबी जैसी वेबसाइटों के विपरीत, बड़ी संख्या में जिलो में आने वाले उपयोगकर्ता नए उपयोगकर्ता या उपयोगकर्ता हैं जिनके पास पंजीकृत खाता नहीं है। ये नए उपयोगकर्ता पहली बार घर खरीदने वाले, नए किराए पर लेने वाले, ऑनलाइन मार्केटप्लेस के लिए घर के खरीदार, स्थानीय आवास बाजार के बारे में उत्सुक यात्रियों या रियल एस्टेट की जानकारी प्राप्त करने के लिए ज़िलो का उपयोग करने वाले लोग हो सकते हैं। इन उपयोगकर्ताओं के लिए, प्रत्येक घरेलू विवरण पृष्ठ पर एक समान होम हिंडोला (जैसे कि चित्र 1 के दाईं ओर दिखाया गया है) दिलचस्प सामग्री को सामने लाने और उनके अनुभव को बेहतर बनाने में महत्वपूर्ण भूमिका निभाता है। जैसा कि उपयोगकर्ता एक घर पर क्लिक करके अपनी रुचि व्यक्त करते हैं, उसी तरह का होम हिंडोला उपयोगकर्ताओं को खोज पृष्ठ पर वापस जाने या फ़िल्टर का चयन किए बिना सीधे ज़िलो पर संबंधित लिस्टिंग का पता लगाने में सक्षम बनाता है।

यह तय करना कि क्या दो घर समान हैं, यह उतना सरल नहीं है जितना यह दिखाई दे सकता है। एक सामग्री के दृष्टिकोण से, एक घर को विभिन्न संरचित विशेषताओं और सूचीबद्ध छवियों और विवरण जैसी असंरचित विशेषताओं द्वारा वर्णित किया जा सकता है। संरचित विशेषताओं में स्थान, मूल्य, आकार, घर के प्रकार, बेडरूम और बाथरूम की गिनती और पड़ोस की विशेषताओं जैसी घरेलू सुविधाएँ शामिल हैं। विषम प्रकारों और तराजू की विशेषताओं से समानता की गणना कैसे करें, यह अपने आप में एक चुनौतीपूर्ण समस्या हो सकती है। जब कोई उपयोगकर्ता दो घरों की तुलना करता है, तो विभिन्न संरचित और असंरचित विशेषताओं का अलग महत्व हो सकता है और एक-दूसरे के साथ बातचीत कर सकते हैं। उदाहरण के लिए, 200 अतिरिक्त वर्ग फुट के रहने की जगह सैन फ्रांसिस्को में एक कोंडो के लिए एक बड़ा अंतर हो सकता है, लेकिन फीनिक्स में एक घर के लिए उतना महत्वपूर्ण नहीं है। हम अपने समान होम सिफारिश मॉडल को "सोचना" और उपयोगकर्ता के दृष्टिकोण से घरों की तुलना करना पसंद करेंगे।

इसी तरह के घरों में मॉडलिंग का एक अन्य तरीका उपयोगकर्ता-आइटम सगाई ("सहयोगी") डेटा का उपयोग करना है, जैसे कि अंतर्निहित उपयोगकर्ता प्रतिक्रिया (जैसे, क्लिक और बचाता है) सहयोगी फ़िल्टरिंग के मामले में, Airbnb द्वारा उपयोग की जाने वाली लिस्टिंग एम्बेडिंग विधि [] 1], और Yahoo [2] द्वारा विकसित उत्पाद एम्बेडिंग विधि। इसके पीछे अंतर्ज्ञान यह है कि समान उपयोगकर्ताओं द्वारा क्लिक किए गए घर समान हैं। हालांकि, इन मॉडलों के लिए नई लिस्टिंग को संभालना सीधा नहीं है, जो कि ज़िलो पर सक्रिय लिस्टिंग के एक महत्वपूर्ण हिस्से के लिए जिम्मेदार हैं। 2018 की शुरुआत के मध्य से 2012 तक, descalized, चिकनी मासिक नई लिस्टिंग गिनती 500K [3, 4] के पास है। सिएटल जैसे लोकप्रिय बाजार में, कुछ दिनों में एक गर्म घर ऑफ-मार्केट हो सकता है। इसलिए, ऐसे घर की सिफारिशों में आइटम कोल्ड-स्टार्ट समस्याओं को संबोधित करना ज़िलेओ जैसे जीवंत घर से संबंधित बाज़ार के लिए बहुत महत्वपूर्ण है।

इस ब्लॉग पोस्ट में, हम इसी तरह की घरेलू सिफारिशों के लिए एक गहरे तंत्रिका नेटवर्क का उपयोग करके एक होम एम्बेडिंग मॉडल पेश करते हैं। हमारा मॉडल सहयोगी और सामग्री दोनों जानकारी प्रदान करता है। अधिक विशेष रूप से, एक तंत्रिका नेटवर्क-आधारित मानचित्रण सामग्री सामग्री स्थान से लेकर एम्बेडिंग स्पेस तक सीखी जाती है, और उपयोगकर्ताओं द्वारा सगाई डेटा द्वारा सीखने की निगरानी की जाती है। इससे भी महत्वपूर्ण बात, हमारा मॉडल आइटम कोल्ड स्टार्ट समस्या को प्रभावी ढंग से संभालने में सक्षम है।

हमारी विधि

स्किप-ग्राम एंबेडिंग के साथ घर का प्रतिनिधित्व

तंत्रिका नेटवर्क मॉडल को उनके इनपुट के रूप में संख्यात्मक अभ्यावेदन की आवश्यकता होती है। इसलिए, हमें सभी स्पष्ट घरेलू विशेषताओं के लिए संख्यात्मक अभ्यावेदन खोजने की आवश्यकता है। ज़िप कोड जैसी श्रेणीबद्ध विशेषताओं में उच्च कार्डिनैलिटी है, इसलिए एक-हॉट एन्कोडिंग के परिणामस्वरूप घर के प्रतिनिधित्व में उच्च आयामीता और अतिरेक हो सकता है और प्रशिक्षण के दौरान अतिरिक्त कम्प्यूटेशनल लागत का कारण बन सकता है। इन मुद्दों को संबोधित करने के लिए, हमने इन श्रेणीबद्ध विशेषताओं के लिए एक कुशल प्रतिनिधित्व (एम्बेडिंग) सीखने के लिए स्किप-ग्राम मॉडल लागू किया।

स्किप-ग्राम मॉडल को शब्द प्रतिनिधित्व सीखने के लिए प्राकृतिक भाषा में सफलतापूर्वक लागू किया गया है। किसी भी अनुक्रमिक डेटा के लिए इसका सामान्यीकरण सहज है। आइए जिप कोड फीचर को एक उदाहरण के रूप में चित्र 2 में दिखाया गया है। प्राकृतिक भाषा डोमेन के अनुरूप, हम एक अद्वितीय ज़िप कोड को "शब्द" के रूप में "शब्दकोश" में मानते हैं, एक उपयोगकर्ता विभिन्न ज़िप कोड पर क्लिक के रूप में आदेश देता है। वाक्य ", और एक" कॉर्पस "के रूप में विभिन्न उपयोगकर्ताओं से ज़िप कोड दृश्यों का संग्रह। स्किप-ग्राम मॉडल को प्रशिक्षित किया जाता है ताकि वर्तमान ज़िप कोड का प्रतिनिधित्व ज़िप कोडों का पूर्वानुमान हो जो उसी उपयोगकर्ता ने सत्र में पास में क्लिक किया, अर्थात, "संदर्भ विंडो" चित्र 2 में दिखाया गया है।

चित्र 2: स्किप-ग्राम मॉडल को ज़िप कोड अनुक्रमों में लागू करने का चित्रण

स्किप-ग्राम प्रतिनिधित्व समझदार है, क्योंकि इस निचले आयामी प्रतिनिधित्व पर दूरी माप विभिन्न स्पष्ट मूल्यों के बीच निकटता को दर्शाता है। इस तथ्य को चित्र 3 में हीटमैप्स द्वारा चित्रित किया गया है, जो सिएटल क्षेत्र में कई ज़िप कोड क्षेत्रों के एम्बेडिंग वैक्टर के बीच कोस समानता को दर्शाते हैं, क्रमशः ज़िप कोड 98101 (बाईं ओर) और 98116 (दाईं ओर)।

चित्र 3: सिएटल ज़िप कोड और 98101 (डाउनटाउन क्षेत्र, बाईं ओर स्थित तारामंडल) और सिएटल ज़िप कोड और 98116 (पश्चिम सिएटल क्षेत्र, दाईं ओर तारांकित) के बीच समानता, स्किप-ग्राम एम्बेडों पर आधारित है।

इसी तरह से, हम ज़ोनिंग प्रकार, स्कूल डिस्ट्रिक्ट, सिटी रीजन, हाउस टाइप, और अन्य सहित अन्य श्रेणीगत विशेषताओं के लिए वेक्टर प्रतिनिधित्व सीखते हैं। चित्रा 4 क्रमशः ज़िप कोड और ज़ोनिंग प्रकार के सीखा प्रतिनिधित्व के लिए टी-एसएनई 2-डी विज़ुअलाइज़ेशन दिखाता है। t-SNE [6] उच्च-आयामी डेटा के लिए एक विज़ुअलाइज़ेशन तकनीक है जो समान डेटा बिंदुओं को एक 2 डी या 3 डी स्थान में एक साथ बंद स्थानों पर मैप करता है। उदाहरण के लिए, ज़िप कोड 988 ** और 989 ** उच्च कोसिन समानता के कारण चित्रा 4 में बाएं भूखंड के ऊपरी-बाएँ कोने में मैप किए गए हैं। एक बार प्रशिक्षित होने के बाद, भविष्य में त्वरित संदर्भ के लिए इन अभ्यावेदन को एक लुक-अप तालिका में संग्रहीत किया जा सकता है।

चित्र 4: वाशिंगटन राज्य में ज़िप कोड (बाएं) और ज़ोनिंग प्रकार (दाएं) के लिए 2 डी स्पेस में टी-एसएनई विज़ुअलाइज़ेशन।

चित्रा 5: सामग्री वेक्टर अंतरिक्ष में घर का प्रतिनिधित्व

श्रेणी 5 के लिए प्रत्येक घर के लिए अंतिम सामग्री सदिश निरूपण बनाने के लिए संख्यात्मक विशेषताओं के साथ श्रेणीबद्ध विशेषताओं के लिए सीखे गए अभ्यावेदन को चित्रित किया जाता है। इस निरूपण का उपयोग गहरे तंत्रिका नेटवर्क मॉडल के इनपुट के रूप में किया जाता है। संख्यात्मक विशेषताओं जैसे कि मूल्य और आकार में तिरछा वितरण है, लॉग परिवर्तन और न्यूनतम-अधिकतम स्केलिंग (चित्र 6) सहित कुछ प्रीप्रोसेसिंग चरण, तंत्रिका नेटवर्क मॉडल के प्रदर्शन में सुधार कर सकते हैं। इसके अलावा, भविष्य में, हम चित्र 5 में दर्शाए गए चित्र और लिस्टिंग विवरण जैसे असंरचित सामग्री से निकाली गई विशेषताओं को शामिल कर सकते हैं।

चित्रा 6: संख्यात्मक विशेषताओं को प्रीप्रोसेस करने का उदाहरण। बाईं ओर: प्रीप्रोसेसिंग से पहले मूल्य हिस्टोग्राम। दाईं ओर: क्वांटाइल क्लिपिंग, लॉग ट्रांसफॉर्मेशन और मिन-मैक्स स्केलिंग के बाद मूल्य हिस्टोग्राम

सियामी नेटवर्क

हम सामग्री वेक्टर स्थान (चित्र 5) से एम्बेडिंग वेक्टर अंतरिक्ष जहां मैपिंग समानता सीधे गणना की जा सकती है, एक मैपिंग फ़ंक्शन सीखने के लिए एक स्याम देश नेटवर्क आर्किटेक्चर का उपयोग करते हैं।

चित्र 7: सियामी नेटवर्क की वास्तुकला

स्याम देश के नेटवर्क का निर्माण करने के लिए, ui और uj द्वारा इंगित घरों की एक जोड़ी का फीचर प्रतिनिधित्व, कई पूरी तरह से जुड़े परतों से मिलकर समान उप-नेटवर्क से गुजरता है। प्रत्येक उप-नेटवर्क अपने घर को निम्न-आयामी एम्बेडिंग स्पेस (जैसे, एन = 25) में चित्रित करता है, जैसा कि चित्र 7 में वर्णित है।

नए आउटपुट एम्बेडिंग स्पेस में, हम चाहते हैं कि दो घरों के बीच असमानता को उनके कोसने की दूरी से मापा जाए:

तंत्रिका नेटवर्क के मापदंडों को अनुकूलित किया जाता है ताकि इस नए एम्बेडिंग स्थान में समान घरों में छोटी कोसाइन दूरी हो, और असमान घरों में बड़ी दूरी हो। ऐसे नेटवर्क के प्रशिक्षण के लिए पर्यवेक्षण उपयोगकर्ताओं के क्लिकस्ट्रीम डेटा में निहित सह-क्लिक या "सहयोगी" जानकारी से आता है। प्रशिक्षण डेटा का निर्माण करने के लिए, हम मानते हैं कि कुछ संदर्भ विंडो के भीतर (<= 10 मिनट) समान उपयोगकर्ता द्वारा सह-क्लिक किए गए घरों के जोड़े (जैसे, खिड़की का आकार = 3) अपेक्षाकृत अधिक समान हैं और सकारात्मक के रूप में लेबल किए जाते हैं, जबकि किसी भी उपयोगकर्ता द्वारा इस तरह से सह-क्लिक किए गए घर कम समान नहीं होते हैं और नकारात्मक के रूप में लेबल किए जाते हैं (जैसा कि चित्र 8 में सचित्र है)।

चित्र 8: उपयोगकर्ता के क्लिकस्ट्रीम डेटा (संदर्भ विंडो आकार = 3, पास के सत्र की बाधा: <= 10 मिनट) से लंगर घर में सकारात्मक और नकारात्मक घरों को निकालने का चित्रण

नुकसान के कार्य

निम्नलिखित दो नुकसान कार्यों को अक्सर एक सियामी नेटवर्क का प्रशिक्षण देते समय माना जाता है।

गर्भनिरोधक नुकसान सीधे घरों की एक जोड़ी के बीच कोसिन दूरी के पूर्ण मूल्य का अनुकूलन करता है, जिससे कि सकारात्मक जोड़े के लिए कोज्या दूरी कम से कम हो, लेकिन नकारात्मक जोड़े के लिए अधिकतम।

कहाँ पे

C, घरों के कुल समूह का प्रतिनिधित्व करता है। सकारात्मकता और नकारात्मकता की उपरोक्त परिभाषा के बाद, प्रत्येक घर के लिए, मैं सभी उपयोगकर्ताओं की क्लिकस्ट्रीम से एकत्रित सकारात्मक घरों के सेट को दर्शाता है। Yij होम जोड़ी (i, j) को सौंपा गया लेबल है, पॉजिटिव है अगर j negative Ci और नेगेटिव अन्यथा। डीआईजी घर मैं और घर जे के बीच नए एम्बेडिंग स्थान में कोसाइन समानता है। एक सकारात्मक मार्जिन मीटर (0 और 2 के बीच) प्रशिक्षण को चुनौतीपूर्ण मामलों (कठिन नकारात्मक) पर ध्यान केंद्रित करने में सक्षम बनाता है।

ट्रिपलआईटी लॉस घरों (i, jp, jn) के ट्रिपलेट को मानता है जहाँ jp, Ci, jn n Ci। पूर्ण दूरी के लिए अनुकूलन के बजाय, ट्रिपल नुकसान एक नकारात्मक जोड़ी (i, jn) और एक सकारात्मक जोड़ी (i, jp) के बीच की दूरी के अंतर को अधिकतम करता है। रिश्तेदार प्रासंगिकता पर अनुकूलन करने का विचार बायेसियन पर्सनलाइज्ड रैंकिंग (बीपीआर) के उद्देश्य समारोह [7] के समान है, जिसने मॉडलिंग निहितार्थ प्रतिक्रिया में प्रभावी दिखाया है। यहाँ मार्जिन m का विपरीत प्रभाव के समान प्रभाव पड़ता है।

दोनों नुकसान कार्यों के साथ प्रशिक्षण करते समय, प्रत्येक सकारात्मक जोड़ी के लिए हमने 5 नकारात्मक जोड़े का नमूना लिया।

कोल्ड-स्टार्ट आइटम के साथ समान होम अनुशंसाएँ

सभी घरों को एम्बेडिंग स्थान पर मैप करने के बाद, एम्बेडिंग स्पेस में कोसाइन दूरी के आधार पर एक साधारण निकटतम पड़ोसी खोज के लिए समान घर की सिफारिश कम हो जाती है। हमारा मॉडल सिफारिशों में किसी भी नई लिस्टिंग को आसानी से शामिल कर सकता है। जब भी एक नया घर सूचीबद्ध होता है, तो हम नई सूची के लिए संख्यात्मक प्रतिनिधित्व उत्पन्न करने के लिए सभी श्रेणीगत विशेषताओं के लिए पूर्वप्रकाशित अभ्यावेदन देख सकते हैं। इसके बाद, पूर्व-प्रशिक्षित तंत्रिका नेटवर्क सामग्री अंतरिक्ष में संख्यात्मक प्रतिनिधित्व को घर के एम्बेडिंग स्थान पर मैप करता है जहां कोसिन समानता की गणना की जा सकती है। चित्र 9 में आरेख नई लिस्टिंग को संभालने के लिए चरणों को सारांशित करता है।

चित्रा 9: नई लिस्टिंग के साथ समान घर की सिफारिशों के लिए वर्कफ़्लो

मूल्यांकन

इसी तरह के घर की सिफारिश एल्गोरिदम प्रत्येक जिलॉ होम विवरण पृष्ठ पर समान होम हिंडोला की शक्ति देता है। एक प्रभावी समान घर के सिफारिशकर्ता को आवास बाजार की खोज के लिए उपयोगी मार्गदर्शन प्रदान करके उपयोगकर्ता के जुड़ाव को चलाना चाहिए। शुरुआती सत्र में एक उपयोगकर्ता द्वारा देखे गए घर को ध्यान में रखते हुए, हम अनुशंसा करेंगे कि उन घरों को रैंक करें जिन्हें उपयोगकर्ता बाद के सत्रों में अधिक समान रूप से अनुशंसित समान घरों के सेट में तलाश करना पसंद करते हैं। इसलिए, हमने ऑफ़लाइन मूल्यांकन के लिए एक क्लिक-आधारित प्रासंगिकता मीट्रिक तैयार की है। परीक्षण की तारीख पर, उनके पहले देखे गए घर पर ध्यान केंद्रित करके, हम यह जांचते हैं कि प्रत्येक उपयोगकर्ता के भविष्य के क्लिकों को अनुशंसित समान घरों की सूची में कैसे स्थान दिया गया है। विभिन्न रैंकिंग पदों पर औसत NDCG विभिन्न तरीकों की तुलना के लिए एक ऑफ़लाइन मूल्यांकन मीट्रिक प्रदान करता है।

हमने प्रस्तावित एम्बेडिंग विधि की तुलना 3 अन्य तरीकों से की है, जिन्हें हमने Zillow में विकसित किया है:

  1. बेसलाइन मॉडल: चित्र 5 में दिखाई गई सामग्री वेक्टर अंतरिक्ष में सीधे घर के निरूपण से सरल कोसिन समानता की गणना की जाती है (अप्रकाशित)।
  2. रैखिक मॉडल: विशेषता-वार मतभेदों के भारित संयोजन के रूप में दो घरों के बीच की दूरी को मापना। वजन सह-क्लिक डेटा (पर्यवेक्षित) से सीखे जाते हैं।
  3. रैंडम फ़ॉरेस्ट: विशेषता-वार अंतर विशेषताओं (पर्यवेक्षित) के समान सेट पर प्रशिक्षित विधि 2 का एक गैर-रैखिक संस्करण।

हमने WA राज्य में उपयोगकर्ता घटना डेटा के आधार पर विभिन्न मॉडलों का मूल्यांकन किया। सभी पर्यवेक्षित मॉडल को परीक्षण की तारीख से एक सप्ताह पहले उपयोगकर्ता की घटनाओं पर प्रशिक्षित किया गया था। चित्रा 9 में बाएं प्लॉट में, एनडीसीजी मैट्रिक्स को बेसलाइन विधि के एनडीसीजी @ 1 के अनुपात के रूप में दर्शाया गया है। सही प्लॉट आधार रेखा पद्धति (सरल कोसिन समानता) पर अलग-अलग पर्यवेक्षण विधियों के एनडीसीजी लिफ्टों की तुलना करता है।

हमारे परिणाम बताते हैं कि उपयोगकर्ता सह-क्लिक डेटा से पर्यवेक्षण आधारभूत विधि पर NDCG मेट्रिक्स पर एक महत्वपूर्ण लिफ्ट के परिणामस्वरूप हुआ। प्राथमिक कारण यह है कि उपयोगकर्ताओं के क्लिक पैटर्न महत्वपूर्ण संकेत प्रदान करते हैं जैसे कि क्या विशेषताएँ महत्वपूर्ण हैं और वे एक दूसरे के साथ कैसे बातचीत करते हैं। सभी पर्यवेक्षित तरीकों के बीच, प्रस्तावित सियामी एम्बेडिंग विधि रैखिक मॉडल और आरएफ मॉडल दोनों से बेहतर प्रदर्शन करती है। इसके अलावा, ट्रिपल लॉस हमारे आवेदन के लिए सियामी नेटवर्क को प्रशिक्षित करने में विपरीत नुकसान पर थोड़ा फायदा दिखाता है। सर्वश्रेष्ठ मॉडल, ट्रिपल लॉस के साथ प्रशिक्षित सियामी एम्बेडिंग मॉडल ने बेसलाइन विधि से NDCG @ 10 पर 21% की महत्वपूर्ण बढ़त हासिल की।

चित्रा 9: एनडीसीजी मेट्रिक्स (बाएं) और एनडीसीजी पर अलग-अलग समान घरेलू अनुशंसा विधियों की तुलना आधारभूत विधि (दाएं) पर करें।

क्या एंबेडिंग अर्थपूर्ण हैं?

इस प्रश्न का उत्तर देने के लिए, हम वॉशिंगटन राज्य में घरों के लिए 25-आयामी एम्बेडिंग को टी-एसएनई के साथ 2 डी स्पेस में कल्पना करते हैं। चित्रा 10 में टी-एसएनई भूखंडों में, प्रत्येक डॉट एक घर का प्रतिनिधित्व करता है, और डॉट्स के प्रत्येक जोड़े के बीच घनिष्ठता घर के एम्बेडिंग स्थान में दो घरों के बीच कोसिन समानता को दर्शाती है। हम प्रत्येक प्लॉट में प्रमुख घरेलू विशेषताओं में से एक के लॉग (लॉग) पैमाने से डॉट्स को रंगीन करते हैं। रंगीन समूहों में संरचना जितनी अधिक होगी, एम्बेडिंग स्पेस में विशिष्ट विशेषता का महत्व उतना अधिक होगा। यहाँ विचार हमारे पिछले ब्लॉग पोस्ट से काफी मिलता-जुलता है जहाँ सहयोगी फ़िल्टरिंग कारकों की कल्पना करने के लिए सेल्फ ऑर्गनाइजिंग मैप्स का उपयोग किया गया था। चित्र 10 में, संरचना में संकेत के आधार पर, विशेषताओं को महत्व के क्रम में दिखाया गया है। एम्बेडिंग विज़ुअलाइज़ेशन से, हम मानते हैं कि स्थान (देशांतर और अक्षांश) एम्बेडिंग में सबसे महत्वपूर्ण कारक प्रतीत होता है, इसके बाद घर की कीमत और घर का आकार होता है। हालांकि, हमें ध्यान देना चाहिए कि कुछ विशेषताएं दूसरों के साथ जटिल बातचीत के कारण भी महत्वपूर्ण हो सकती हैं, जो नीचे दिए गए विज़ुअलाइज़ेशन के माध्यम से सीधे नहीं देखी जा सकती हैं।

चित्र 10: वॉशिंगटन राज्य में लिस्टिंग एम्बेडिंग के लिए t-SNE 2D विज़ुअलाइज़ेशन, कुछ चुने हुए घरेलू विशेषताओं के तराजू से रंगीन। ध्यान दें कि मूल्य, आकार (वर्ग फुट), और ज़िलो पर दिन प्राकृतिक लॉग स्केल पर हैं।

निष्कर्ष

इस ब्लॉग पोस्ट में, हम Zillow में इसी तरह की घरेलू सिफारिशों के लिए एक स्याम देशीय नेटवर्क का उपयोग करके एक गहरी सीखने-आधारित लिस्टिंग एम्बेडिंग विधि का परिचय देते हैं। हमारा एम्बेडिंग मॉडल सहयोगी और सामग्री जानकारी दोनों का उपयोग करता है, विशेषताओं के बीच मॉडल जटिल बातचीत, और प्रभावी ढंग से कोल्ड-स्टार्ट आइटम संभालता है। ऑफ़लाइन मूल्यांकन ने समान घरों की सिफारिशों के माध्यम से उपयोगकर्ताओं के लिए प्रासंगिक घरों को बदलने में हमारे एम्बेडिंग विधि के मजबूत प्रदर्शन का प्रदर्शन किया है। ऑफ़लाइन परिणामों के आधार पर, हम वर्तमान में Siowese नेटवर्क मॉडल का उपयोग करके काम कर रहे हैं ताकि अगली पीढ़ी के समान होम सिफ़ारिश इंजन को बिजली के साथ चलाया जा सके।

इस परियोजना के समर्थन के लिए ज़िलो में पूरी निजीकरण टीम को बहुत धन्यवाद। इस ब्लॉग पोस्ट में सुझाव और प्रतिक्रिया के लिए एरिक रिंगर, ओन्ड्रेज लिंडा और ईगोर कावलेक का विशेष धन्यवाद।

यदि आपको यह काम दिलचस्प लगता है और यदि आप अपने डेटा साइंस और मशीन लर्निंग स्किल्स को हमारे बड़े पैमाने पर, समृद्ध और लगातार विकसित होने वाले रियल-एस्टेट डेटा सेट पर लागू करना चाहते हैं, तो कृपया पहुँचें। हम भर्ती कर रहे हैं!

संदर्भ

[१] ग्रबोविक, मिहाजलो, एट अल। "सर्च रैंकिंग में एंबेडिंग एंबेडिंग्स।" 13 मार्च 2018, एयरबीएनबी इंजीनियरिंग एंड डेटा साइंस @ मीडियम।

[२] ग्रबोविक, मिहाजलो, एट अल। "आपके इनबॉक्स में ई-कॉमर्स: बड़े पैमाने पर उत्पाद की सिफारिशें।" ज्ञान डिस्कवरी और डेटा खनन पर 21 वें एसीएम एसआईजीकेडीडी अंतर्राष्ट्रीय सम्मेलन की कार्यवाही। एसीएम, 2015।

[३] गुदेल, गुदेल। "इन्वेंटरी डाउन है, लेकिन लिस्टिंग्स नहीं है", जून 2017 मार्केट रिपोर्ट, जिलो ग्रुप, प्रकाशन दिनांक: जुलाई 20, 2017, https://www.zillow.com/research/june-2017-market-report-15956 /

[४] रिंगर, एरिक, एट अल। "आपका घर ढूँढना: एक विशाल बाज़ार में बड़े पैमाने पर सिफारिश।" ComplexRec 2018

[५] मिकोलोव, टॉमस, एट अल। "सूचना और वाक्यांशों और उनकी संरचना का प्रतिनिधित्व वितरित किया।" तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम। 2013।

[६] मातेन, लॉरेन्स वैन डेर और जेफ्री हिंटन। "टी-एसएनई का उपयोग करते हुए डेटा की कल्पना करना।" जर्नल ऑफ मशीन लर्निंग रिसर्च 9.नोव (2008): 2579-2605।

[Le] रेंडल, स्टीफन, एट अल। "BPR: अंतर्निहित प्रतिक्रिया से बेयसियन व्यक्तिगत रैंकिंग।" आर्टिफिशियल इंटेलिजेंस में अनिश्चितता पर 25 वें सम्मेलन की कार्यवाही। AUAI प्रेस, 2009।

मूल रूप से www.zillow.com पर 17 अक्टूबर, 2018 को प्रकाशित हुआ।