डेटा व्यक्तिगत है। ग्रामीण अमेरिका में 42 साक्षात्कारों से हमने क्या सीखा।

यह पोस्ट ACM CHI 2019 (बेस्ट पेपर अवार्ड!) में हमारे पेपर पर आधारित है - डेटा पर्सनल है: इवान एम। पेक, सोफिया आयुसो और उमर एल-एटर द्वारा ग्रामीण पेंसिल्वेनिया में डेटा विज़ुअलाइज़ेशन के दृष्टिकोण और धारणाएं। हमारे डेटा, सामग्री और इस कार्य के अन्य सारांश के लिए, कृपया हमारी परियोजना वेबसाइट पर जाएँ।

ग्रामीण अमेरिका में बार्न्स से बार ग्राफ़ तक

केंद्रीय पेंसिल्वेनिया में परिदृश्य सुंदर है जहां मैं काम करता हूं। यदि आप फिलाडेल्फिया या न्यूयॉर्क या बाल्टीमोर से 2-3 घंटे की ड्राइव लेते हैं, तो आप हरे रंग की पहाड़ियों और "मॉडल ट्रेन" खेतों को ढाले जाने वाले परिदृश्य में प्रवेश करेंगे। आप अमीश घोड़े और बग्गियों को देखते हैं, जैसे कि आप छोटे, नज़दीकी समुदायों के माध्यम से हवा करते हैं, और साथ ही, आप सड़क किनारे खेत खड़े करते हैं, झंडे और घर के धार्मिक संकेत (कभी-कभी साइड-साइड) पास करते हैं। एन्थ्रेसाइट कोयला क्षेत्र के बगल में स्थित, केंद्रीय पीए एक ऐसा क्षेत्र है जो कोयले की लुप्त होती ऊर्जा स्रोत के साथ-साथ अपनी पहचान बनाता है।

लेविसबर्ग के बारे में एक पुराना मजाक

लेकिन भूमि की टोपोलॉजी हमारे द्वारा काम करने के प्रकारों या हमारे भारतीय रेस्तरां तक ​​पहुंचने के लिए कितनी दूर तक काम करती है, से अधिक प्रभावित करती है। यह मौलिक रूप से उस तरीके को प्रभावित कर सकता है जिस तरह हम डेटा तक पहुंचते हैं। ग्रामीण कैलिफोर्निया में डॉ। जेना ब्यूरेल के अद्भुत काम के इस उद्धरण पर विचार करें:

मेरा तर्क है कि ग्रामीण क्षेत्रों की जनसांख्यिकी के कारण खराब इंटरनेट कनेक्टिविटी महज एक 'स्वाभाविक' परिणाम नहीं है, जहां के निवासी कम आय वाले होते हैं, कम शैक्षिक योग्यता रखते हैं, और उम्र में बड़े होते हैं। यह बहिष्कार की बात है। यह अपवर्जन भूगोल, सुदूरता और जनसंख्या घनत्व द्वारा आकार दिया गया है, जो एक विशेष अमेरिकी राजनीतिक अर्थव्यवस्था के भीतर परिणामी हैं, जहां कनेक्टिविटी की उपलब्धता काफी हद तक बाजार संचालित है।
- जेना ब्यूरेल, "संयुक्त राज्य के ग्रामीण क्षेत्रों में डिजिटल असमानता के बारे में तर्कसंगत रूप से सोचना"।

2019 में सूचना तक हमारी पहुंच हमें सशक्त या नुकसान पहुँचा सकती है। जबकि डॉ। बरेल इंटरनेट कनेक्टिविटी के संदर्भ में असमानता के बारे में बात करते हैं, हम डेटा संचार के संदर्भ में बहिष्करण पर विचार करना चाहते हैं - जिस तरह से हम पेश करते हैं विज़ुअलाइज़ेशन के माध्यम से डेटा कुछ लोगों को कारण या दूसरों की तुलना में डेटा को समझने में मदद करता है?

हालांकि आप यह मान सकते हैं कि डेटा के साथ ग्रामीण आबादी कैसे होती है, इसके बारे में कुछ अलग नहीं है, यह देखने के लिए 2016 के राष्ट्रपति के मतदान मानचित्रों पर एक नज़र डालते हैं, कुछ मायनों में, हम सभी दुनिया की उसी तरह व्याख्या नहीं करते हैं। और ऊपर दिए गए उद्धरण में उल्लिखित उन्हीं जनसांख्यिकीय समूहों - कम आय, कम शिक्षा, उम्र में बड़े - डेटा विज़ुअलाइज़ेशन साहित्य में खोजना मुश्किल है। हम क्या नहीं जानते?

यह केवल 2016 के राष्ट्रपति के नक्शे पर एक सरसरी नज़र डालता है यह देखने के लिए कि हम सभी दुनिया को उसी तरह से नहीं देखते हैं। यह छवि द न्यूयॉर्क टाइम्स की है:

और इसलिए यहां, सुंदर, ग्रामीण केंद्रीय पीए में, हमने बड़े सवालों को देखते हुए एक शोध परियोजना शुरू की: कौन हमारे डेटा पर ध्यान दे रहा है और कौन नहीं? वे डेटा पर ध्यान क्यों नहीं दे रहे हैं? उन्हें क्या भरोसा है ... और क्यों?

हमने ग्रामीण पेंसिल्वेनिया के 40+ लोगों से 10 ग्राफ़ का एक सेट रैंक करने के लिए कहा। फिर हमने इसके बारे में बात की।

एक किसान बाजार, एक निर्माण स्थल, और विश्वविद्यालय की भोजन सुविधाओं में, हमने अपने समुदाय के 42 सदस्यों के साथ ग्राफ और चार्ट के बारे में बातचीत की, ताकि वे समझ सकें कि वे डेटा के साथ कैसे समझते हैं और संलग्न हैं।

  • हमने लोगों को नशीली दवाओं के उपयोग के बारे में 10 डेटा विज़ुअलाइज़ेशन दिखाए जो कि उनके दृश्य एन्कोडिंग, उनकी शैली और उनके स्रोत में भिन्न हैं।
  • हमने उनकी उपयोगिता के आधार पर उन्हें 10 ग्राफ (बिना स्रोत की जानकारी के) रैंक देने के लिए कहा।
  • रेखांकन के स्रोतों का खुलासा करने के बाद, लोगों को अपने विज़ुअलाइज़ेशन को फिर से चलाने का अवसर दिया गया।
10 चार्ट और ग्राफ़ हमने लोगों को रैंक करने के लिए कहा। सबसे पहले, लोगों ने उन्हें अपने स्रोत को जानने के बिना रैंक किया। बाद में, ग्राफ स्रोतों का पता चला और उन्हें अपने डेटा को फिर से चलाने का अवसर दिया गया।

जिन लोगों से हमने बात की थी, वे अभी युवा नहीं थे और केवल कॉलेज में नहीं थे। वे अपनी शिक्षा में विविध थे (60% ने कभी कॉलेज पूरा नहीं किया) और उम्र (26% 55+, 33% 35-44 के बीच थी)। कई घंटों की बातचीत के माध्यम से, यहाँ हमने पाया ...

सकल डेटा गन्दा है, व्यक्तियों को छिपा रहा है

उच्च-स्तरीय दृश्य प्राप्त करने के लिए, आइए यह देखते हुए कि प्रत्येक रैंकिंग में कितने लोगों ने प्रत्येक ग्राफ दिया:

कितनी बार प्रत्येक ग्राफ ने प्रतिभागियों से प्रत्येक रैंकिंग प्राप्त की। 1 सबसे अच्छा है, 10 सबसे खराब है।

हमें यह देखने में देर नहीं लगी कि रैंकिंग डेटा गड़बड़ था - और इस बात के लिए गन्दा था कि एकत्रित साधनों या मध्यस्थों को साझा करना बेकार था। हमारे पेपर में इसके बारे में कहने के लिए बहुत कुछ है, लेकिन इस पोस्ट के प्रयोजनों के लिए, व्यक्तिगत प्राथमिकता और ध्यान जटिल है। इन्फोग्राफिक्स विभाजनकारी हैं (चार्ट जे को सबसे अधिक 1 रैंकिंग और सबसे अधिक 10 रैंकिंग प्राप्त हुई!), कुछ लोग सादगी पसंद करते हैं, कुछ रंग पसंद करते हैं, और कुछ ऐसे ही खोजते हैं, जहां वे रहते हैं।

लेकिन इन खुरदरी प्रवृत्तियों से अलग, यदि हम सभी लोगों को डेटा संचार के बारे में गंभीर हैं, तो हमें इन गन्दे वितरणों के बारे में और अधिक समझने की आवश्यकता है। डेटा के पीछे की कहानियां क्या हैं?

डेटा व्यक्तिगत है। डेटा अंतरंग है।

जैसा कि हमने अपने साक्षात्कारों का विश्लेषण और कोड किया, हमें कुछ ऐसा याद दिलाया गया जिसे हम अक्सर भूल जाते हैं - डेटा अंतरंग और व्यक्तिगत हो सकता है। यदि किसी को किसी भी ग्राफ से व्यक्तिगत संबंध मिला है, तो यह रंग, शैली या तकनीक से संबंधित नहीं है। जिन लोगों से हमने बात की, उनके लिए व्यक्तिगत कनेक्शन वाले चार्ट ने अन्य सभी डिज़ाइन आयामों को छोड़ दिया।

जो लोग शराब से प्रभावित थे वे शराब के साथ रेखांकन के लिए तैयार थे ...

शराब के बारे में जानकारी [सबसे महत्वपूर्ण है]।
मैं एक शराबी काम कर रहा हूँ। मेरे जीवन का सबसे महत्वपूर्ण व्यक्ति शराबी है।
अभी, मेरे लिए यह महत्वपूर्ण है।
 - 65-74 वर्षीय, कॉलेज स्नातक

जो लोग ओपिओइड से प्रभावित थे, वे ओपीओइड के साथ रेखांकन के लिए तैयार थे ...

कुछ अन्य [रेखांकन] के रूप में, मैं काफी कम लोगों को जानता हूं, जो दुर्भाग्य से ओपिओइड के साथ एक मुद्दा है ... और यह कुछ ऐसा है जिसे आप मानते हैं ... क्या आप उस व्यक्ति को कल देखने जा रहे हैं या नहीं?
 - 25-34 साल के किसी हाई स्कूल से, कोई डिप्लोमा से नहीं

बार-बार (और फिर से) लोगों ने अपने रैंकिंग निर्णयों को तर्कसंगत बनाने के लिए व्यक्तिगत अनुभव का हवाला दिया। और उन्होंने जो कहानियां हमें बताईं - शोधकर्ता वे कभी नहीं मिले थे - अक्सर अंतरंग थे ...

मेरे कुछ दोस्त हैं जो [opioids से] मर गए, इसलिए [Graph F] ने मुझे इस तरह से बना दिया।
 - 25-34 वर्षीय, हाई स्कूल स्नातक

इन वार्तालापों के बारे में हम जो भी बात कर रहे हैं, वह यह नहीं है कि वे बिल्कुल भी घटित हुए हैं, बल्कि वे जिस आवृत्ति के साथ साक्षात्कार के डिजाइन में घटित हुए हैं, वह उनके लिए नहीं थी। यह बहुत संभव है कि कई अन्य लोगों से हमने ऐसे ही अनुभवों को रखने के लिए बात की, जो अनपेक्षित थे। और यह हमें परेशान करने वाले सवालों के साथ छोड़ देता है ... हम अपने डिजाइनों में संभवतः ऐसे शक्तिशाली, व्यक्तिगत कारकों के लिए कैसे जिम्मेदार हो सकते हैं?

डेटा व्यक्तिगत है: प्रासंगिक भूगोल

हालांकि ये व्यक्तिगत कहानियां डिजाइन करने के लिए चुनौतीपूर्ण हो सकती हैं, अन्य हमें स्पष्ट डिजाइन निहितार्थ के लिए प्रेरित करते हैं। एक भागीदार से प्रतिक्रिया पर विचार करें जब पूछा गया कि उसने दाईं ओर लाइन ग्राफ की तुलना में बाईं ओर रेखा ग्राफ को क्यों चुना।

मैंने इसे केवल साधारण तथ्य के लिए उच्च स्थान दिया है कि मैं अमेरिका में रहता हूं इसलिए मुझे लगा कि यह बहुत प्रासंगिक था ... दूसरे की तुलना में अधिक।
 - 45-54 वर्ष की आयु, सहयोगी की डिग्री

स्पष्ट होने के लिए, ये दोनों रेखांकन संयुक्त राज्य के बारे में हैं। लेकिन ध्यान दें कि उनमें से केवल एक के पास एक स्पष्ट शीर्षक है जो यूएसए के डेटा के कनेक्शन को स्पष्ट करता है? यह एक सरल डिजाइन विकल्प है, लेकिन हमारे प्रतिभागी के लिए, यह एक टुकड़ा था जो मायने रखता है।

डेटा व्यक्तिगत है: होम कहाँ है?

यदि आप हमारी तरह हैं, तो आप सोच सकते हैं कि हमारे निष्कर्ष बताते हैं कि मानचित्र दृश्य एक स्पष्ट और स्पष्ट विजेता हैं। आखिरकार, संयुक्त राज्य अमेरिका के साक्षात्कार में पेंसिल्वेनिया (पीए) शामिल हैं।

और वास्तव में, पेन्सिलवेनिया ने हमारे प्रतिभागियों के लिए मायने रखा। लेकिन यह एक आश्चर्यजनक तरीके से खुद को प्रकट किया ...

ये दो [अमेरिकी देश] नक्शे [रैंक कम] हैं क्योंकि मैं उन्हें कम पसंद करता हूं। यह पूरा देश है; यह बहुत बड़ा है। आप स्वाभाविक रूप से अपने राज्य को देखते हैं। बहुत व्यस्त है। मैं उन लोगों से रोमांचित नहीं हूं
 - 65-74 वर्ष। उच्च विद्यालय के स्नातक।
कुछ प्रतिभागियों ने मानचित्र के विचारों को नापसंद किया जो पेंसिल्वेनिया पर केंद्रित नहीं थे। उन्हें लगा कि देश व्यापी अवलोकन उस कहानी से विचलित हो रहा है जिसकी उन्हें (अपने घर) तलाश थी।

यह एक परिणाम नहीं था। हमारे सुंदर अवलोकन मानचित्रों की नियमित रूप से आलोचना की गई, जिन्हें अक्सर "अव्यवस्थित" या "व्यस्त" के रूप में जाना जाता है। जबकि पेंसिल्वेनिया मानचित्र पर है, यह देश के उन क्षेत्रों के घने आंकड़ों से घिरा हुआ है, जहां हमारे प्रतिभागी रुचि नहीं ले रहे थे।

यह दिलचस्प है क्योंकि हम ओवरव्यू के डिजाइन पैटर्न पर कठिन झुकाव करते हैं → डिमांड पर विवरण। लेकिन हम यहां जो देख रहे हैं, वह यह है कि कुछ लोग उन महत्वपूर्ण जानकारियों से ध्यान हटाने के लिए अवलोकन करते हैं जिनकी वे परवाह करते हैं। यदि हमारे पास व्यक्तिगत जानकारी तक पहुँच है (जैसे ब्राउज़र में जियोलोकेशन तक पहुंच थी), तो हम एक नए पैटर्न के साथ सबसे अच्छी सेवा प्रदान कर सकते हैं: व्यक्तिगत विवरण → अवलोकन।

बहुत से लोग डेटा को उद्देश्य के रूप में देखते हैं। वह खतरनाक है।

इस बिंदु पर, लोगों ने स्रोत को जाने बिना विज़ुअलाइज़ेशन का न्याय किया। लेकिन एक बार जब उन्होंने अपनी प्रारंभिक रैंकिंग प्रदान की, तो हमने अपने 10 विज़ुअलाइज़ेशन के स्रोत का खुलासा किया। वे सरकारी स्रोतों (नेशनल इंस्टीट्यूट ऑन ड्रग एब्यूज) से लेकर विश्वविद्यालयों (ड्रेक्सेल यूनिवर्सिटी) तक समाचार आउटलेट्स (द न्यूयॉर्क टाइम्स, द इकोनॉमिस्ट, ब्रेइटबार्ट) तक पहुंचे।

लेकिन जिन लोगों का हमने साक्षात्कार लिया, उनमें से अधिकांश के लिए सूत्रों ने कोई बात नहीं की। वास्तव में, हमारे 60% प्रतिभागियों ने अपनी रैंकिंग में बदलाव नहीं करने का फैसला किया, भले ही वह दृश्य कहां से आया हो।

क्यों?

हमने पाया कि बहुत से लोगों ने सुझाव दिया है कि जानकारी में एक उद्देश्य गुणवत्ता है जो कि डेटा के प्रदर्शन के बावजूद अपरिवर्तनीय है ...

मुझे लगता है कि जानकारी जानकारी नहीं है जहां से यह आता है।
- 18-24 वर्षीय, कुछ कॉलेज क्रेडिट (कोई डिग्री नहीं)

वास्तव में, कई लोगों के लिए, डेटा और विज़ुअलाइज़ेशन पर्यायवाची थे। इन लोगों के लिए, डेटा से डिज़ाइन तक की पाइपलाइन स्वच्छ और स्पष्ट है, बिना पूर्वाग्रह या बयानबाजी के।

हम जानते हैं कि यह सही नहीं है ... लेकिन लोग अब भी इसे मानते हैं। निष्पक्षता की इन गलत धारणाओं का मुकाबला करने के लिए हम अपने सिस्टम को कैसे डिजाइन कर सकते हैं?

ये निर्णय कौन ले रहा है?

डेमोग्राफिक डेटा में खुदाई करते हुए, हमने देखा कि जिन लोगों के साथ हमने अधिक शिक्षा के लिए साक्षात्कार किया था, उनकी रैंकिंग में बदलाव की संभावना अधिक थी।

जो लोग बेहतर शिक्षित थे, वे विज़ुअलाइज़ेशन के स्रोत को देखकर अपनी रैंकिंग बदलने के लिए तैयार होने की अधिक संभावना रखते थे

पैटर्न दिलचस्प है, लेकिन कृपया इन निष्कर्षों से सावधान रहें। सामान्यीकरण के साथ चलने के लिए नमूना आकार बहुत छोटा है।

लेकिन यहां एक बात पर विचार करने लायक है: हमारे विज़ुअलाइज़ेशन डिजाइनों को निर्देशित करने वाले बहुत सारे शोध और दिशानिर्देश, उन लोगों के साथ अध्ययन के माध्यम से तैयार किए गए थे, जिनके पास कम से कम कुछ कॉलेज का अनुभव था। ध्यान से देखें कि उन लोगों के बिना हमारे निष्कर्ष कैसे बदल गए होंगे ...

एक ही ग्राफ, लेकिन उन सभी लोगों को हटाना जिनके पास कॉलेज का कोई अनुभव नहीं था।

कहानी बहुत अलग है। हम अपने शोध पत्रों, प्रक्रियाओं, और डिजाइन दिशा-निर्देशों में बेकिंग कर रहे हैं जिनके बारे में हमें जानकारी नहीं है? हमें कौन सी कहानियां याद आ रही हैं?

ट्रस्ट मैटर्स। जो लोग स्रोत का हिसाब रखते हैं, उनके लिए राजनैतिक पहचान उनके भरोसे पर खरी उतर सकती है।

अपनी रैंकिंग को बदलने के लिए चुने गए लोगों में से, यह आश्चर्य की बात नहीं हो सकती है कि उनके कुछ फैसले उनकी राजनीतिक पहचान के साथ मेल खाते हैं। वे लोग जिन्होंने न्यूयॉर्क टाइम्स के रूढ़िवादी ग्राफ़ और चार्ट को रूढ़िवादियों से उच्चतर के रूप में पहचाना। इस बीच, कुछ रूढ़िवादियों ने ब्रेइटबार्ट से ग्राफ और चार्ट को उदारवादियों की तुलना में ऊंचा कर दिया।

हमारे 10 ग्राफ़ों में से प्रत्येक के लिए, हम दिखाते हैं कि प्रतिभागियों के स्रोतों के सामने आने के बाद उनकी रैंकिंग कैसे बदल गई। इन परिवर्तनों की उनके राजनीतिक संबद्धता से तुलना करने से पता चलता है कि राजनीतिक पहचान बदल सकती है कि लोग डेटा विज़ुअलाइज़ेशन को कैसे महत्व देते हैं या भरोसा करते हैं।

इन निहितार्थों के साथ कुश्ती महत्वपूर्ण है। जब हम द न्यूयॉर्क टाइम्स या वाशिंगटन पोस्ट (अच्छे कारण के लिए!) में बताई गई डेटा कहानियों का जश्न मनाते हैं, तो मुझे लगता है कि हमें यह भी प्रतिबिंबित करने की आवश्यकता है कि वास्तव में कौन उन पर ध्यान आकर्षित करता है। क्या हम एक ही डेटा को देख रहे हैं? क्या हम इसे उसी तरह से भरोसा कर रहे हैं? क्या हम इसे उसी तरह याद कर रहे हैं?

राजनीतिक पहचान के अलावा, एक व्यक्ति ने यह भी सुझाव दिया कि वे राष्ट्रीय समाचारों की तुलना में स्थानीय समाचार स्रोतों से विज़ुअलाइज़ेशन पर अधिक ध्यान देंगे:

मैंने [द न्यू यॉर्क टाइम्स] को नहीं पढ़ा है, लेकिन अगर मुझे यह तस्वीर पसंद आई, तब भी मैंने अखबार नहीं खरीदा क्योंकि मैं न्यूयॉर्क में नहीं रहता। सनबरी का पेपर, जो यहाँ के करीब है। तब मैं इसे पढ़ूंगा ... लेकिन मैंने अभी भी उस एक को नहीं पढ़ा है
 - 45-55 साल का। एसोसिएट डिग्री

फिर, व्यक्तिगत मामले। और जब हम अलग-अलग, अच्छी तरह से नियंत्रित वातावरण में विज़ुअलाइज़ेशन का विश्लेषण करते हैं, तो हमारे प्लेटफ़ॉर्म भी मायने रखते हैं।

डेटा विज़ुअलाइज़ेशन की कहानी क्या है?

जब मैं छात्रों को डेटा विज़ुअलाइज़ेशन सिखाता हूं, तो मैं अक्सर उस चीज़ के साथ नेतृत्व करता हूं जो मेरा मानना ​​है कि क्षेत्र की सम्मोहक कहानी है। यह कुछ इस तरह चलता है…

  • डेटा रीज़निंग 2019 में सभी के लिए एक आवश्यक कौशल है। चाहे वह ऋणों को नेविगेट करना हो या कॉलेज चुनना या जलवायु परिवर्तन को समझना हो ... हमें अपने और अपने समुदायों के लिए सूचित निर्णय लेने के लिए डेटा को समझने की आवश्यकता है।
  • डेटा विज़ुअलाइज़ेशन एक महत्वपूर्ण उपकरण है जो डेटा के साथ समझ और तर्क को बढ़ाता है। उच्चतम स्तर पर, इसमें डेटा को लोकतांत्रिक बनाने और इसे अधिक लोगों तक पहुंच बनाने की क्षमता है। यह रोमाँचक है!

परंतु…

यदि आप इस कहानी को उसी तरह मानते हैं जो मैं करता हूं, तो इसका मतलब यह भी है कि हमें डेटा विज़ुअलाइज़ेशन के बारे में कठिन सवाल पूछने की ज़रूरत है उसी तरह जैसे हम 2019 में अन्य तकनीक के बारे में कठिन सवाल पूछ रहे हैं।

ऐसे उपकरण जो हमें बढ़ाते हैं - जिसमें डेटा विज़ुअलाइज़ेशन भी शामिल है - यदि वे सभी के लिए डिज़ाइन नहीं किए गए हैं, तो विभाजन को गहरा करने की क्षमता है।

हमें वास्तव में एक बेहतर समझ की आवश्यकता है कि कौन सा विज़ुअलाइज़ेशन बढ़ता है और कौन इसे पीछे छोड़ता है।

ऐसा करने का सबसे अच्छा तरीका क्या है?

यह पोस्ट ACM CHI 2019 (बेस्ट पेपर अवार्ड!) में हमारे पेपर पर आधारित है - डेटा पर्सनल है: इवान एम। पेक, सोफिया आयूसो और उमर एल-एटर द्वारा ग्रामीण पेंसिल्वेनिया में डेटा विज़ुअलाइज़ेशन के दृष्टिकोण और धारणाएं। हमारे डेटा, सामग्री और इस कार्य के अन्य सारांश के लिए, कृपया हमारी परियोजना वेबसाइट पर जाएँ।