नवंबर में प्लूटो डेटा टीम की प्रगति

अंतिम पोस्ट में, प्लूटो के एक डेटा वैज्ञानिक, चांगबाई ने हमारे ओपन प्रोजेक्ट की शुरुआत की: लेखक का नाम असंतोष। यह परियोजना प्लूटो की डेटा टीम का एक प्रमुख हिस्सा है। आज, मैं साझा करना चाहता हूं कि नवंबर में हमारी डेटा टीम क्या करती है और उनकी प्रगति क्या है।

डेटा टीम पर केंद्रित दो परियोजनाएं हैं:

  1. <लेखक का नाम वितरण> परियोजना
    यह परियोजना, जो पहले से ही शुरू की गई है, को पिछले अकादमिक वस्तुओं (यानी कागजात) से मेल खाने के लिए उपयुक्त व्यक्तिगत शोधकर्ता को एक सफलता खोजने और भविष्य के इनपुट के लिए समान पद्धति लागू करने के लिए डिज़ाइन किया गया है।
    प्रारंभ में, यह परियोजना केवल टीम के सदस्यों द्वारा की गई थी, लेकिन Q4 से हम इसे एक ओपन प्रोजेक्ट बनाने की कोशिश कर रहे हैं। हमें विश्वास है कि सहयोग, पारदर्शिता, समावेश जैसे ओपन प्रोजेक्ट के लक्षण हमें समाधान की ओर तेजी से ले जाएंगे। इसके अलावा हमने यह महसूस करना जारी रखा है कि हमें ऐसा करने में शैक्षणिक समुदाय के विभिन्न लोगों से अंतर्दृष्टि की आवश्यकता है। इसलिए हमने नवंबर के दौरान परियोजना को खोलने के लिए एक प्रारंभिक कार्य तैयार किया।
  2. <अच्छे शोध के लिए मैट्रिक्स की खोज>
    कागजात की तलाश में, शोधकर्ता आमतौर पर अमूर्त और संदर्भ सूचियों का उल्लेख करते हैं। लेकिन वे अभी भी सुनिश्चित नहीं हो सकते हैं कि ये कागज कितने मूल्यवान हैं, इसलिए उन्होंने "अच्छे कागजात" प्राप्त करने में बहुत समय लगाया। इस समस्या को हल करने के लिए, डेटा टीम ने इस परियोजना को शुरू किया।
    यह परियोजना 1. "अच्छे शोध" के रूप में निर्णय लेने के लिए मानदंड और 2. निर्णय के मानदंडों को कैसे मापेगी।
    यह उस कार्य के समान है जिसे हम वैज्ञानिक आउटपुट के मात्रात्मक उपायों के लिए देखते हैं, जो वर्तमान अकादमिया का उपयोग करता है (यानी इम्पैक्ट फैक्टर) को प्रतिस्थापित करता है। हमने सोचा था कि अगर हम "अच्छे शोध" के लिए मेट्रिक्स पाते हैं, तो यह उस समस्या को भी हल कर सकता है। जिन मैट्रिक्स की हम खोज कर रहे हैं, उन्हें मात्रात्मक होना चाहिए, जो कि मजबूत डेटा के आधार पर, तेजी से अद्यतन और पूर्वव्यापी, अनुशासन द्वारा सामान्यीकृत, में हेरफेर नहीं किया जा सकता है।

जैसा कि हम इन परियोजनाओं के माध्यम से आगे बढ़े हैं, हमने यह समस्याग्रस्त पाया कि हमें न केवल हमारे पूरे डेटाबेस की गहरी समझ का अभाव था, बल्कि डेटा की गुणवत्ता नियंत्रण की भी आवश्यकता थी। इसलिए हमने अपनी समझ और अपने डेटा की गुणवत्ता दोनों को बेहतर बनाने पर ध्यान केंद्रित किया।

* यह पोस्ट डेटा टीम की समग्र प्रगति को सारांशित करता है। ओपन प्रोजेक्ट की अधिक जानकारी अगली श्रृंखला में पाई जा सकती है।

खोजपूर्ण डेटा विश्लेषण (EDA)

सबसे पहले, हमने पूरे डेटाबेस की हमारी समझ को बेहतर बनाने के लिए EDA का संचालन किया। ईडीए दृश्य तरीकों के साथ, उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिए डेटा सेट का विश्लेषण करने वाला एक दृष्टिकोण है। आमतौर पर, ईडीए यह देखने के लिए है कि औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से पहले डेटा हमें क्या बता सकता है। EDA के साथ, हमें निम्नलिखित मदों के लिए वितरण मिला: संदर्भ गणना, उद्धरण गणना, दस्तावेज़ प्रकार, सार में शब्दों की संख्या, उपलब्ध URL की संख्या, सह-लेखकों की संख्या, प्रत्येक लेखक के लिए प्रकाशन की संख्या, प्रकाशित वर्ष, और पत्रिका प्रत्येक में प्रकाशित किया जाता है

छनन

पूरे डेटा के बारे में हमारी समझ बढ़ाने के बाद, हमने फ़िल्टरिंग कार्य तैयार किया।
डेटा की गुणवत्ता में सुधार के लिए फ़िल्टरिंग कार्य के बारे में कुछ विवरण यहां दिए गए हैं।

  • दस्तावेज़ प्रकार (डॉक-प्रकार) का उपयोग करना
    हमें EDA के उपयोग से पूरे डेटा के doc-type के बारे में जानकारी मिली। इस जानकारी से, हमने जांचा कि पूरे डेटा का लगभग 20 प्रतिशत पेटेंट डेटा है, कागजात नहीं। हमने इस बात की पुष्टि करने के लिए एक पायलट परीक्षण किया कि EDA के माध्यम से डॉक्स-प्रकार की जानकारी सही है, और परीक्षण के परिणाम ने हमें बताया कि यह विश्वसनीय है। इसलिए हमने पेटेंट डेटा को फ़िल्टर करने के लिए डॉक-प्रकार की जानकारी का उपयोग किया।
  • अमूर्त की लंबाई का उपयोग करना
    यह फ़िल्टरिंग मानदंड अमूर्त की लंबाई के आधार पर दो मामलों में विभाजित है। एक मामला यह है कि अमूर्त की लंबाई बहुत कम है। सार जो बहुत छोटा है, उसमें 20 से कम शब्द हैं। इन मामलों में अन्य शर्तों की आवश्यकता नहीं होती है। और दूसरा मामला यह है कि अमूर्त की लंबाई थोड़ी कम है। जो सार थोड़ा छोटा है, उसमें 20 से 50 शब्द हैं। इन मामलों में अन्य शर्तों की आवश्यकता होती है। इस विचार के आधार पर, हम अक्षर, शब्दकोश या ऑडियो जैसे डेटा को अलग कर सकते हैं।
  • अनुक्रमित से डेटा निकालें
    हमने उन डेटा को फ़िल्टर किया है जो अन्य अकादमिक इंडेक्स साइटों से आते हैं, मूल डेटा से नहीं। ये डेटा रिकॉर्ड हमारे डेटाबेस में डुप्लिकेट होने का खतरा है क्योंकि डेटाबेस स्वयं क्रॉलर-इंडेक्स सेवा, Microsoft शैक्षणिक से आता है। इस प्रकार, अन्य सूचकांक से आने वाला डेटा "डबल इंडेक्स" है।
  • अन्य डेटा के लिंक के बिना डेटा निकालें
    हमने बिना किसी संदर्भ या उद्धरण के डेटा को फ़िल्टर किया। हम इन आंकड़ों को आगे बढ़ाने में विश्वास करते हैं, क्योंकि वे इस समय डेटाबेस में इतने महत्वपूर्ण नहीं हैं, और यदि आवश्यक हो तो हम उन्हें कभी भी पुनर्स्थापित कर सकते हैं।

सत्यापित किया जा रहा

डेटा को फ़िल्टर करने के बाद, हमने स्व-उद्धरण विचारों का परीक्षण किया।
यह परीक्षण सत्यापित करने के लिए आयोजित किया गया था। 1. फ़िल्टरिंग मूल डेटा और फ़िल्टर्ड डेटा की तुलना के माध्यम से सफल होती है और 2. अधिक उच्च गुणवत्ता वाले डेटा पर स्व-उद्धरण विचार की वैधता।

हमने क्रूज़ के उपनाम को अवरुद्ध किया है जिसका उचित आकार है और ब्लॉक के आधार पर नेटवर्क-ग्राफ बनाया है। (नोड: लेखक, किनारे: संदर्भ) विचार को मान्य करने के लिए आवश्यक केवल मामलों की पहचान करने के लिए, हमने उन मामलों को बाहर रखा जहां नाम 100% से मेल खाता था क्योंकि हमारा विचार केवल तब काम करता है जब लेखक के नाम में अस्पष्टता हो।

और फिर हमने उन मामलों पर ध्यान केंद्रित किया जहां नाम और संदर्भ जुड़े हुए थे, नाम डेटा के वितरण की चर्चा करते हुए। हमने नाम के वितरण का उल्लेख किया क्योंकि दो लेखकों को समान नामों के साथ विलय करने का निर्णय उनके नामों के वितरण के लिए अत्यधिक संवेदनशील है। मान लीजिए कि डेविड क्रूज़ नाम की 1000 पहचान हैं और उनमें से 2 संदर्भ से जुड़ी हैं, तो यह आश्वस्त करना मुश्किल है कि वे एक ही व्यक्ति हैं। लेकिन अगर केवल 2 डेविड क्रूज़ हैं, और वे संदर्भ के साथ जुड़े हुए हैं, तो एक उच्च संभावना है कि वे एक ही व्यक्ति हैं। यही है, नाम डेटा का वितरण यह निर्धारित कर सकता है कि वे विश्वसनीय हैं या नहीं।

नतीजा

लेखकों के बीच नेटवर्क-ग्राफ़ का उदाहरण
  • फ़िल्टर किए बिना डेटा पर परीक्षण करें
    47,585 लेखकों, 100,370 पत्रों और 6,925 संदर्भों के आंकड़ों के आधार पर, हमें 118 मामलों के साथ परिणाम मिले, और हम 227 लेखकों के नामों की अस्पष्टता को समाप्त कर सकते हैं।
  • फ़िल्टरिंग के साथ डेटा पर परीक्षण करें
    34,202 लेखकों, 82,069 पत्रों और 6,663 संदर्भों के आंकड़ों के आधार पर, हमें 139 मामलों के साथ परिणाम मिले, और हम 321 लेखकों के नामों की अस्पष्टता को समाप्त कर सकते हैं।
  • अंदाज़ करना
    - कागज: 18.23% अस्वीकृत
    - लेखक: 28.12% अस्वीकृत
    - उपसमूह: 5.34% अस्वीकृत
    - मर्ज किया गया लेखक: 23% बढ़ा
    - परीक्षण के परिणामों के माध्यम से, हम यह सत्यापित करने में सक्षम थे कि फ़िल्टरिंग सफल रही और हमारे विचारों ने काम किया। हमें लगता है कि ये नतीजे बेकार के आंकड़ों के रूप में सामने आए।

परिणामस्वरूप, हमारे पास नवंबर में सफल आउटपुट रहे हैं, और अब हम इसे नवंबर के प्रयास के आधार पर स्किनैप्स के पूरे डेटा पर लागू करने का प्रयास कर रहे हैं।

हमारी डेटा टीम हमेशा सेवाओं के पीछे एक महत्वपूर्ण भूमिका निभा रही है। इस पोस्ट के माध्यम से, मुझे आशा है कि उपयोगकर्ताओं को हमारी डेटा टीम के प्रयासों के बारे में पता चल जाएगा।

और प्लूटो टीम हमेशा उन प्रतिभागियों का स्वागत करती है जो हमारी डेटा टीम के साथ ओपन प्रोजेक्ट में शामिल होना चाहते हैं
प्लूटो नेटवर्क
मुखपृष्ठ / गितुब / फेसबुक / ट्विटर / टेलीग्राम / माध्यम
स्किनैप्स: शैक्षणिक खोज इंजन
ईमेल: team@pluto.network