प्लूटो ओपन प्रोजेक्ट (2)

लेखक का नाम स्व-प्रशस्ति पत्र का उपयोग कर छूट

नमस्ते, यह प्लूटो नेटवर्क की डेटा माइनिंग टीम है।

पिछली पोस्ट में, हमने लेखक के नाम विघटन के लिए दो विचार प्रस्तुत किए - आत्म-प्रशस्ति पत्र और कौथोर समानता - और कुछ समस्याएं जैसे विकृत डेटा।

यह पोस्ट पिछले पोस्ट से उन विचारों के डेटा और कार्यान्वयन के पूर्वप्रक्रिया का वर्णन करेगा। शुरू करने से पहले, इस पोस्ट में प्रयुक्त शब्दों को परिभाषित करते हैं। कुछ लेखों से उद्धृत हैं, और अन्य मेरे अपने हैं।

यहाँ हम एक वास्तविक व्यक्ति का उल्लेख करने के लिए अलग-अलग शब्द का उपयोग करते हैं, और एक लेखक को एक इकाई को संदर्भित करने के लिए होता है जो लेखक की अस्वीकृति प्रक्रिया से उत्पन्न होता है।
समस्या दो तरीकों से प्रकट होती है: किसी दिए गए व्यक्ति को दो या दो से अधिक लेखकों ([विभाजन, इस प्रकार विलय की आवश्यकता)) के रूप में पहचाना जा सकता है, या, दो या दो से अधिक व्यक्तियों को एक ही लेखक के रूप में पहचाना जा सकता है ([विलय, इस प्रकार विभाजन की आवश्यकता है) )।

हम विलय (यानी पूर्व) पर ध्यान केंद्रित करते हैं, विभाजित नहीं करते हैं, क्योंकि हम विलय के लिए बड़ी संख्या में लेखकों के विपरीत विभाजित करने के लिए कुछ लेखकों से मिले हैं।

उनके अलावा, हम शब्द का उपयोग उन वस्तुओं को इंगित करने के लिए करते हैं जिन्हें स्किनैप डेटाबेस में कागजात के रूप में माना जाता है। वे पेटेंट, समाचार पत्र, या यहां तक ​​कि संगीत (नीचे उदाहरण) हो सकते हैं। उनमें से, लेख अकादमिक शोध पत्रों को इंगित करते हैं, और अन्य प्रकाशन जो लेख नहीं हैं, उन्हें इस पोस्ट में गैर-लेख प्रकाशन कहा जाएगा।

विचलन के लिए उद्धरण आवश्यक है, स्रोत: Dan4th निकोलस, फ्लिकर (CC बाय 2.0)

डेटा प्रीप्रोसेसिंग

प्रीप्रोसेसिंग चरण में, हमने उन प्रकाशनों को हटाने पर ध्यान केंद्रित किया जो लेख नहीं हैं, अर्थात् गैर-लेख प्रकाशन। हम इस कारण को नहीं जानते हैं कि डेटाबेस में इतनी बड़ी संख्या में गैर-लेख प्रकाशन शामिल क्यों हैं, लेकिन यह स्पष्ट है कि उन्हें हमारे डेटाबेस से हटा दिया जाना चाहिए।

बाख सबसे महान संगीतकार में से एक हैं, लेकिन उनकी संगीत रचनाएं लेख नहीं हैं

चूँकि उन्हें लेखों या गैर-लेखों के रूप में लेबल नहीं किया जाता है, हम उन्हें आसानी से नहीं निकाल सकते। सबसे पहले, हमने उन गैर-प्रकाशन प्रकाशनों को एकत्र किया, जिन्हें हमने अब तक पाया है। और फिर हमने उनकी विशेषताओं जैसे उद्धरणों, लेखकों के पैटर्न और सार का निरीक्षण किया।

समस्या यह थी, भले ही उन गैर-लेख प्रकाशनों का एक विशिष्ट पैटर्न हो, एक्स कहते हैं, पैटर्न एक्स वाले सभी प्रकाशन गैर-लेख प्रकाशन नहीं थे। उदाहरण के लिए, गैर-लेख प्रकाशनों में लघु अमूर्त होते हैं, लेकिन कुछ लेखों में बहुत कम सार होते हैं (15 शब्दों से कम)। क्या बुरा है, कुछ सार भी विकृत थे।

इस प्रकार, हमें चक्र को दोहराना पड़ा; एक पैटर्न ढूंढें, यह सत्यापित करने के लिए कि क्या यह गैर-लेख प्रकाशनों के लिए एक आवश्यक शर्त है, पैटर्न के साथ प्रकाशनों की जांच करें। इसने ओपन सोर्स योगदानकर्ताओं का काफी समय और योगदान लिया।
* ध्यान दें कि हम ऐसे नियमों को खोजने के लिए मशीन लर्निंग का उपयोग नहीं कर सकते, क्योंकि हमारे पास पर्याप्त उदाहरण नहीं हैं।

अंत में, हमने गैर-लेख प्रकाशनों को अलग करने के लिए दो विशिष्ट पैटर्न पाए। पहला यह है कि विशिष्ट डोमेन वाले कुछ प्रकाशन लेख नहीं हैं। जाहिर है, "google.patent.com" के कागजात एक लेख नहीं, बल्कि एक पेटेंट होना चाहिए। दूसरे, कुछ गैर-लेख प्रकाशनों को एक ही लेखक समूहों द्वारा बार-बार लिखा जाता है। एक ही लेखक समूह के साथ प्रकाशनों की सबसे बड़ी संख्या 20,000 से अधिक थी।

क्या एक ही लेखक सेट के साथ इतने सारे लेख प्रकाशित करना संभव है?

लेखक का नाम

हमने दो विचारों का परीक्षण किया - सह-समानता और स्व-उद्धरण - छोटे लेखक ब्लॉकों के भीतर उनके उपनाम, या उपनाम ब्लॉकों द्वारा समूहीकृत। अविश्वसनीय रूप से, भले ही लेखक के नाम विघटन पर साहित्य में सबसे अधिक उल्लेखित विशेषता में से एक है, लेकिन समान coauthors और नामों के साथ लेखकों की थोड़ी संख्या थी। इसके बजाय, बहुत अधिक लेखक थे जो समान या समान नामों के साथ अन्य लेखकों का हवाला देते हैं, जिसका अर्थ है कि वे एक ही व्यक्ति हो सकते हैं।

हमें इसका कारण Microsoft अकादमिक पद में मिला।

इस प्रकार, हमने केवल स्व-प्रशस्ति पत्र पर ध्यान केंद्रित करने का निर्णय लिया, क्योंकि लेखक का नाम अनादर का उपयोग करते हुए समानता पहले से ही Microsoft अकादमिक द्वारा अपनाया गया है।
(* हमारे डेटाबेस के अधिकांश Microsoft अकादमिक से आता है)

यद्यपि प्रत्येक उपसमूह के भीतर समान या समान नामों वाले बहुत सारे लेखक थे, फिर भी हम निश्चित नहीं थे कि क्या वे एक ही व्यक्ति को देखने के बाद भी थे। उदाहरण के लिए, भले ही जे। किम ने एक और जे। किम के लेख का हवाला दिया, लेकिन हम यह नहीं बता सकते हैं कि वे एक ही व्यक्ति हैं क्योंकि कई जे। किम अकादमिया में हो सकते हैं। (यह दक्षिण कोरिया में एक प्रयोगशाला के भीतर भी हो सकता है)

चूंकि हम झूठे सकारात्मक के प्रति संवेदनशील हैं, हम परिणामों की संख्या कम होने के बावजूद सख्त नियम पसंद करते हैं। कई उपसमूहों का निरीक्षण करने के बाद, हमने निम्नलिखित नियमों को अपनाया।

1. समान उपनामों के साथ उद्धरण उपसमूह

हमने मान लिया कि एक अकेले व्यक्ति के लेखकों के बिल्कुल समान उपनाम होंगे, क्योंकि शोधकर्ता उनके उपनामों को संक्षिप्त नहीं करते हैं। इसके अलावा, हमने गैर-अंग्रेजी उपनामों को फ़िल्टर किया, क्योंकि यह हर एक भाषा को संभालने के लिए आसान और अप्रभावी नहीं था।

इस प्रकार, हमने उपनामों द्वारा डेटा को अवरुद्ध कर दिया और किनारों के रूप में लेखकों और नोड्स के साथ सबग्राफ बनाया। बाद में, हमने प्रत्येक उपसमूह के भीतर वितरण को आगे बढ़ाया।

2. सटीक नाम मिलान

पिछले चरण में, हमने कई लेखकों को पाया, जिन्होंने एक ही उपनाम के साथ अन्य लेखकों का हवाला दिया। हालाँकि, यह स्पष्ट है कि वे एक ही व्यक्ति का प्रतिनिधित्व नहीं करते हैं। कुछ मामलों को खोजने के लिए, हमने कुछ सबग्राफ का निरीक्षण किया।

ऐसा करते हुए, हम कई लेखकों से उपसमूह के भीतर एक ही नाम के साथ मिले। वे ज्यादातर एक ही व्यक्ति का प्रतिनिधित्व करते थे, सिवाय इसके कि पहला नाम या पूरा नाम बहुत आम है (विशेषकर जब पहला नाम प्रारंभिक नाम लिखा गया हो)।

3. अद्वितीय अस्तित्व

सारांश में, इस स्तर पर प्रत्येक उपसमूह के लेखकों के उद्धरण संबंध हैं और उनके बिल्कुल समान नाम हैं। हमने अध्ययन, पत्रिकाओं और संबद्धता के क्षेत्रों जैसे अन्य विशेषताओं पर विचार किया, लेकिन प्रशस्ति पत्र उनके बीच सबसे शक्तिशाली संकेतक था। चूंकि हम इस समस्या से चिपके नहीं रहना चाहते हैं, इसलिए हमने केवल सामान्य नामों वाले लेखकों को बाहर करने का निर्णय लिया है।

नामों की समानता को निर्धारित करने के लिए, हमने अपने डेटाबेस का उपयोग किया। हमने उन सबग्राफ को उठाया जहां सबग्राफ के भीतर के नाम सबग्राफ के बाहर मौजूद नहीं होते हैं (यानी बिना डिस्कनेक्ट किए समान नाम)। उदाहरण के लिए, हमारे डेटाबेस में सी। ग्राम नाम के केवल दो लेखक हैं, और उनमें से एक ने दूसरे का हवाला दिया, तो यह मामला है। बेशक, इस संबंध को और अधिक लेखकों तक विस्तारित किया जा सकता है (बड़े आकार वाले उपसमूह)।

हमने सोचा कि ये मानदंड काफी सख्त हैं, और यादृच्छिक नमूने के साथ सत्यापित करने से पता चला है कि परिणाम विश्वसनीय था।

निष्कर्ष

योग करने के लिए, हमने प्रीप्रोसेसिंग चरण में 58,796,366 (28.05%) अनावश्यक अनावश्यक लेख प्रकाशनों को हटा दिया, और 1,498,289 लेखकों को 649,519 में स्वयं-उद्धरणों का उपयोग करके लेखक के नाम विघटन में विलय कर दिया।

निम्नलिखित मुद्दों है कि हम इस परियोजना के दौरान आगे बढ़ने के बारे में चिंतित थे।

1. डुप्लिकेट

कई प्रकाशन वास्तविकता में एक लेख का प्रतिनिधित्व कर सकते हैं, और इसे 'प्रकाशन नाम असंतोष' कहा जा सकता है। हालाँकि, भले ही कई लेखों में एक ही शीर्षक हो और कुछ लेखकों को साझा करें, लेकिन हम अभी भी अनिश्चित हो सकते हैं कि क्या वे एक ही लेख का प्रतिनिधित्व करते हैं या नहीं क्योंकि उनमें से कुछ के पास अलग-अलग DOI या प्रकाशन तिथियां थीं।

वैसे भी, हमें संदेह है कि दसियों हज़ार से अधिक प्रकाशन हैं जिन्हें नकल किया जा सकता है, और हमें अपने डेटा की गुणवत्ता में सुधार करने के लिए उनका विलय करना चाहिए।
(* इसमें संस्करण नियंत्रण भी शामिल हो सकते हैं)

2. प्रभाव

हम शोधकर्ताओं और लेखों का सम्मान करते हैं। लेकिन चूंकि इनका प्रभाव अलग-अलग होता है, इसलिए अक्सर शिक्षाविदों के मूल्यांकन में मैट्रिक्स का उपयोग किया जाता है।

इस पहलू में, भले ही इसे मापना मुश्किल हो, लेकिन नोबेल पुरस्कार विजेता जैसे उल्लेखनीय व्यक्ति औसतन अन्य लेखकों की उपेक्षा करने से ज्यादा सार्थक हो सकते हैं। यह कहना नहीं है कि उनकी शोध उपलब्धियों के बीच अर्थपूर्णता के ऐसे अंतर मौजूद हैं, लेकिन हम ऐसे व्यक्तियों की अवहेलना करके सूचना प्रणाली के प्रभाव के संदर्भ में बात कर रहे हैं।

हम कभी नहीं जानते कि कितने व्यक्ति, लेखक नहीं, एकेडेमिया में हैं, लेकिन निश्चित रूप से संख्या 100 मिलियन से कम होने का अनुमान है। हम लगभग कुल लेखकों में से लगभग एक लाख हैं। लेखकों के 150 मिलियन, और वास्तव में यह एक छोटा अंश है। लेकिन फिर भी, टीम प्लूटो के लिए अच्छी तरह से संगठित डेटाबेस होना जरूरी है और हमने सफलतापूर्वक पहला कदम उठाया है।

अगले पोस्ट में, हम डुप्लिकेट किए गए पेपरों को अलग कर देंगे और उल्लेखनीय लेखकों को एक नए तरीके से विलय करने का प्रयास करेंगे।

प्लूटो नेटवर्क
मुखपृष्ठ / गितुब / फेसबुक / ट्विटर / टेलीग्राम / माध्यम
स्किनैप्स: शैक्षणिक खोज इंजन
ईमेल: team@pluto.network