आर में प्यू रिसर्च सेंटर सर्वेक्षण डेटा का विश्लेषण कैसे करें

प्यू रिसर्च सेंटर अपने सर्वेक्षण के आंकड़ों को सार्वजनिक रूप से आईबीएम एसपीएसएस के रूप में जारी करता है। एसओएस एक्सटेंशन के साथ। लेकिन यदि आपके पास SPSS तक पहुंच नहीं है, तो डेटा का विश्लेषण और उपयोग करने के लिए नि: शुल्क, ओपन-सोर्स टूल उपलब्ध हैं।

यहां तक ​​कि बुनियादी एसपीएसएस पहुंच के साथ, सर्वेक्षण डेटा के साथ काम करने के लिए सर्वेक्षण भार या अन्य जटिल सर्वेक्षण डिज़ाइन सुविधाओं को सही ढंग से संभालने के लिए अतिरिक्त टूल या तकनीकों की आवश्यकता होती है। विश्लेषण जो इन डिज़ाइन सुविधाओं को खाते में लेने में विफल होते हैं, वे पक्षपाती परिणाम उत्पन्न कर सकते हैं और अनुमानों या सांख्यिकीय परीक्षणों की शुद्धता को पार कर सकते हैं। सौभाग्य से, आर सांख्यिकीय सॉफ्टवेयर प्लेटफ़ॉर्म के साथ इन प्रकार के विश्लेषणों को सही ढंग से करने के लिए उपकरण स्वतंत्र रूप से उपलब्ध हैं।

यह पोस्ट आर का उपयोग करके केंद्र के सर्वेक्षण डेटा का सही ढंग से विश्लेषण करने के बारे में एक त्वरित ट्यूटोरियल प्रदान करता है। आर के उपयोग से सर्वेक्षण डेटासेट का विश्लेषण करने में मदद करने के उद्देश्य से पोस्ट की एक सामयिक श्रृंखला में यह पहला है।

R क्या है?

R सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक भाषा और वातावरण है। R नि: शुल्क सॉफ्टवेयर फाउंडेशन के GNU जनरल पब्लिक लाइसेंस की शर्तों के तहत सोर्स कोड फॉर्म में मुफ्त सॉफ्टवेयर के रूप में उपलब्ध है। यह यूनिक्स प्लेटफार्मों और इसी तरह की प्रणालियों (फ्रीबीएसडी और लिनक्स सहित), विंडोज और मैकओएस की एक विस्तृत विविधता पर संकलित करता है और चलाता है। आर और इसे डाउनलोड करने के तरीके के बारे में अधिक पढ़ने के लिए, r-project.org पर जाएं।

इस पद का विश्लेषण इस पर निर्भर करेगा:
 - आर
 - आर स्टूडियो (एक ओपन-सोर्स कोड संपादक और आर भाषा में काम करने वाला इंटरफ़ेस)
 - निम्नलिखित स्वतंत्र रूप से उपलब्ध आर संकुल:
· विदेशी
· सर्वेक्षण
· बुनना

इन पैकेजों को स्थापित करने के लिए, निम्न कोड का उपयोग करें:

install.packages (c ("विदेशी", "सर्वेक्षण", "knitr"))

प्यू रिसर्च सेंटर डेटा तक पहुँचना

केंद्र की वेबसाइट पर "डेटासेट" टैब पर पहुंचकर कई प्यू रिसर्च सेंटर सर्वेक्षण डेटासेट डाउनलोड के लिए उपलब्ध हैं। केंद्र किस तरह के डेटा को जारी करता है और इसे कैसे एक्सेस किया जाता है, इसके बारे में अधिक जानकारी के लिए, इस ब्लॉग पोस्ट को पढ़ें।

केंद्र से डाउनलोड करने के लिए उपलब्ध लगभग सभी डेटा को SPSS .sav फ़ाइलों के रूप में संग्रहीत किया जाता है। SPSS फ़ाइलों में अक्सर मान और मान लेबल दोनों होते हैं - उदाहरण के लिए, रिपब्लिकन के लिए 1, डेमोक्रेट के लिए 2।

यह ट्यूटोरियल केंद्र के अप्रैल 2017 के राजनीतिक सर्वेक्षण के डेटा का उपयोग करेगा, जो अमेरिकियों के राष्ट्रीय संस्थानों के विचारों और सरकार में उनके विश्वास सहित विषयों पर केंद्रित था।

आर में सर्वेक्षण डेटा लोड हो रहा है

R में सर्वेक्षण डेटा का विश्लेषण करने के लिए पहला कदम डेटा फ़ाइल को आपके R वातावरण में पढ़ना है। चूंकि डेटा को एक .sav फ़ाइल के रूप में संग्रहीत किया जाता है, आप R के "विदेशी" पैकेज से read.sps () फ़ंक्शन का उपयोग करना चाहते हैं। नीचे, हम पहले पैकेज पुस्तकालयों को लोड करते हैं और फिर डेटा को एक डेटा.फ्रेम में पढ़ते हैं जिसे हम "अप्रैल 17" कहते हैं। डिफ़ॉल्ट रूप से, read.spss () सर्वेक्षण डेटा के लिए चर और मान लेबल के सभी को बरकरार रखता है, लेकिन यह स्वचालित रूप से एक data.frame नहीं बनाता है, इसलिए हमें स्पष्ट रूप से एक पैरामीटर सेट करना होगा। यहां हम डेटा के रूप में अपने R वातावरण में फ़ाइल को लोड करने के लिए to.data.frame = TRUE का उपयोग करते हैं।

 पुस्तकालय (विदेशी)
 पुस्तकालय (सर्वे)
 पुस्तकालय (knitr)
 Apr17 <- read.spss ("Apr17 public.sav", डेटासेट के लिए #file पथ
                    । toata.frame = TRUE) डेटा फ्रेम में #sets ऑब्जेक्ट
CP#52 से ## पुनः एन्कोडिंग

यदि आप इस कोड को चलाते हैं, तो आपको उन वेरिएबल्स के लिए एक चेतावनी मिलेगी जिनके पास हर श्रेणी के लेबल नहीं हैं - जैसे कि उम्र। इन उदाहरणों में read.spss () डिफ़ॉल्ट रूप से इन लेबलों को जोड़ देगा। यदि आप एक अलग व्यवहार की तलाश कर रहे हैं, तो add.undeclared.levels () विकल्प देखें।
 
 केंद्र के डेटासेट के अधिकांश चर - जैसे कि सेक्स, दौड़ और इतने पर - श्रेणीबद्ध हैं। आर में, इन प्रकार के चर को कारक कहा जाता है। आप तालिका () फ़ंक्शन का उपयोग यह देखने के लिए कर सकते हैं कि कारक चर किस प्रकार वितरित किया गया है:

तालिका (Apr17 $ पार्टी)
 ##
 ## रिपब्लिकन डेमोक्रेट
 ## 375 466
 ## स्वतंत्र नहीं वरीयता (वीओएल)
 ## 616 28
 ## अन्य पार्टी (वीओएल) पता नहीं / इनकार (वीओएल)
 ## ९ 9

एक सर्वेक्षण डिजाइन की स्थापना

सर्वेक्षण डेटा का विश्लेषण करने के लिए अगला कदम सर्वेक्षण डिजाइन वस्तु बनाने के लिए आर के "सर्वेक्षण" पैकेज से svydesign फ़ंक्शन का उपयोग करना है। यह कदम इस मायने में महत्वपूर्ण है कि यह स्पष्ट रूप से आकलन के लिए सर्वेक्षण भार और अन्य डिजाइन घटकों का उपयोग करने के लिए सर्वेक्षण डिजाइन को स्पष्ट रूप से बताता है। Svydesign फ़ंक्शन जटिल सर्वेक्षण डिजाइनों के कई अलग-अलग रूपों को स्वीकार करता है। फ़ंक्शन के बारे में अधिक विस्तार से पढ़ने के लिए, यहां क्लिक करें।

इस ट्यूटोरियल में उपयोग किए गए अप्रैल 2017 के डेटासेट सहित प्यू रिसर्च सेंटर के अधिकांश सर्वेक्षणों के लिए, उपयोगकर्ताओं को सर्वेक्षण डिजाइन की घोषणा करते समय तीन आइटम निर्दिष्ट करने की आवश्यकता होती है:
 
 1. आईडी के साथ क्लस्टर पहचानकर्ता =। केंद्र के लगभग सभी अमेरिकी सर्वेक्षणों में क्लस्टर पहचानकर्ता नहीं होते हैं। इस सर्वेक्षण में यह इंगित करने के लिए ~ 0 सूत्र का उपयोग करें कि कोई क्लस्टर नहीं है।
 2. डेटा के साथ सर्वेक्षण डेटासेट =
 3. सर्वे वेट विथ वेट =

Apr17_design = svydesign (
         ids = ~ 0, #formula यह दर्शाता है कि कोई गुच्छे नहीं हैं
         data = Apr17, #this डेटासेट है
         वज़न = ~ भार) # यह 'भार' चर है
                            # Apr17 डेटासेट से

सर्वेक्षण भार के साथ आवृत्तियों का अनुमान लगाना

सर्वेक्षण डिजाइन घोषित होने के बाद, आप svymean () फ़ंक्शन का उपयोग करके भारित अनुमान प्राप्त कर सकते हैं। Svymean की मुख्य दलीलें () उस चर की पहचान करने वाले सूत्र हैं जो आप में रुचि रखते हैं और सर्वेक्षण डिजाइन वस्तु।

Svymean () फ़ंक्शन का उपयोग भारित साधनों, संस्करण, अनुपात, योग और अधिक की गणना करने के लिए किया जा सकता है। लौटा हुआ आँकड़ा उस चर के वर्ग पर निर्भर करता है जिसे यह कहा जाता है। उदाहरण के लिए, राष्ट्रपति डोनाल्ड ट्रम्प की नौकरी की स्वीकृति (q1- एक कारक चर) का अनुमान लगाने के लिए, निम्नलिखित कोड का उपयोग करें:

अनुमान के अनुसार svymean (~ q1, #variable)
         डिज़ाइन = Apr17_design #survey डिज़ाइन ऑब्जेक्ट
                                svydesign () के साथ #created
         )
 ## मतलब एसई
 ## q1Approve 0.394008 0.0144
 ## q1Disapprove 0.542368 0.0147
 ## q1D पता नहीं है / इनकार (वीओएल) 0.063624 0.0078

विभिन्न उपसमूहों के बीच ट्रम्प की नौकरी की मंजूरी को देखने के लिए, आप svyby () फ़ंक्शन का उपयोग कर सकते हैं, जो डेटासेट के उपसमूहों के आंकड़ों की गणना करता है। Svymean () फ़ंक्शन को अन्य कारक चर द्वारा निर्धारित डेटा के सबसेट पर भारित अनुमानों की गणना करने के लिए svyby () फ़ंक्शन के साथ संयोजन में उपयोग किया जा सकता है। नॉट पैकेज से काबल () फ़ंक्शन सारणीबद्ध रूप में आंकड़े प्रदर्शित करता है।

उदाहरण के लिए, पुरुषों और महिलाओं के बीच राष्ट्रपति की मंजूरी का अनुमान लगाने के लिए, आप इस कोड का उपयोग कर सकते हैं:

q1_by_sex = svyby (~ q1, # विश्वसनीय अनुमान लगाने के लिए
                   ~ सेक्स, # सेक्सग्रुप चर
                   डिजाइन = Apr17_design,
                   प्रत्येक उपसमूह पर उपयोग करने के लिए FUN = svymean, #function
                   Keep.names = FALSE #does पंक्ति में शामिल नहीं हैं। नाम
                                       # उपसमूह चर
      )
 
 knitr :: kable (q1_by_sex, अंक = 2)

यह पोस्ट सर्वेक्षण पैकेज के साथ R में आपके द्वारा किए जाने वाले विश्लेषण के प्रकारों की सतह को खरोंचती है, लेकिन मुझे आशा है कि इसे शुरू करने के लिए पर्याप्त है। भविष्य में, हम R के साथ सर्वेक्षण डेटा विश्लेषण और विज़ुअलाइज़ेशन पर अतिरिक्त पोस्ट लिखने की योजना बनाते हैं। यदि आपके पास इस पोस्ट के बारे में प्रश्न हैं, या यदि सर्वेक्षण डेटा के साथ अन्य चीजें हैं और आर आप जानना चाहते हैं कि हम कैसे करें, तो हमें बताएं info@pewresearch.org पर जानें।

निक हैटली प्यू रिसर्च सेंटर के एक शोध विश्लेषक हैं।