प्लूटो ओपन प्रोजेक्ट (1)

प्रस्तुत है लेखक का नाम संवितरण

नमस्ते, यह प्लूटो नेटवर्क की डेटा माइनिंग टीम है।

हम पहले से ही अपने विचारों और बाधाओं को साझा कर रहे हैं ताकि अनुसंधान के वातावरण में मौजूद बाधाओं को बाधित करने के लिए विकेंद्रीकृत विद्वानों के संचार मंच के निर्माण में बाधा उत्पन्न की जा सके।
कुछ विचारों को लागू करने से पहले, टीम ने सोचा है कि शिक्षाविदों के पिछले रिकॉर्ड और प्रदर्शन को ठीक से प्रबंधित और गणना करना है। वर्तमान में, शैक्षणिक डेटाबेस मुख्य रूप से विद्वानों के लेखों की खोज के लिए उपयोग किया जाता है, इस प्रकार वे मुख्य रूप से लेखकों के बजाय व्यक्तिगत लेखों पर ध्यान केंद्रित करने में कामयाब होते हैं, उच्च व्यवस्थित मानकों को प्राप्त करने में विफल होते हैं। इस तथ्य से बहुत सारी चुनौतियाँ सामने आती हैं कि प्रकाशन की जानकारी दसियों हज़ारों अलग-अलग पत्रिकाओं और प्रकाशकों से ली जाती है, जिनके पास इन सूचनाओं को संभालने की अलग-अलग नीतियाँ हैं।

व्यवहार में, एक एकल शोधकर्ता के प्रकाशन अक्सर कई लेखक पहचानकर्ताओं में विभाजित होते हैं (विभिन्न पत्रिकाओं में प्रकाशित होते हैं, इस प्रकार अलग-अलग डेटा स्रोत होते हैं), और विभिन्न लेखकों द्वारा प्रकाशनों को एक ही लेखक पहचानकर्ता में मिला दिया जाता है। समान नामों के लेखकों द्वारा अनुसंधान परिणामों को भेद करना मुश्किल है क्योंकि अधिकांश डेटा बिना किसी मानक, सार्वभौमिक पहचान प्रणाली के उनके नामों पर आधारित हैं। हमने अपने डेटाबेस में कई अन्य समस्याओं की पहचान की है जैसे शादी में नाम परिवर्तन, कई नाम प्रतिनिधित्व, नामों में संक्षिप्तता, असंगत प्रतिनिधित्व, और इसके बाद।

प्लूटो नेटवर्क कुछ डेटा माइनिंग तकनीकों का उपयोग करके पिछले व्यक्तिगत वस्तुओं (यानी कागजात) को उपयुक्त व्यक्तिगत शोधकर्ता से मिलान करने में सफलता पाने के लिए, और भविष्य की जानकारी के लिए उसी पद्धति को लागू करने के लिए उपयोग कर रहा है। हम इस समस्या को "लेखक का नाम विघटन" कहते हैं, और आगामी श्रृंखलाओं के साथ, हम उन विस्तृत चुनौतियों का वर्णन करेंगे, जिनका हम सामना कर रहे हैं और हम उन पर दृष्टिकोण कर रहे हैं।

https://scinapse.io/authors/2076473182 / https://scinapse.io/authors/2777877377

इससे पहले कि हम और अन्वेषण करें

लेखक के नाम विच्छेद और हमारी कुछ चिंताओं में कुछ चुनौतियाँ हैं

  • उन मामलों की पर्याप्त संख्या नहीं है जहां "सही मूल्य" ज्ञात है। (अर्थात 100% आश्वासन है कि लेखकों की दी गई जोड़ी वास्तव में एक ही व्यक्ति है) इस प्रकार हम शुरुआती चरण में अनसुप्रवाइज्ड लर्निंग के साथ संपर्क कर रहे हैं, और बाद में जब हमारे पास उचित लेबल के साथ पर्याप्त प्रशिक्षण डेटा होता है, तो हम पर्यवेक्षण के साथ सीखने की कोशिश कर रहे होंगे। डाटासेट।
  • झूठे नकारात्मक त्रुटियों की तुलना में डेटा गलत सकारात्मक त्रुटियों के प्रति अधिक संवेदनशील है। अर्थात्, अलग-अलग व्यक्तियों को एक ही पहचानकर्ता में गलत तरीके से विलय करने से विभाजित पहचान को गायब करने की तुलना में अधिक महत्वपूर्ण हो सकता है जिसे विलय किया जाना चाहिए। इसलिए, लेखकों को विलय करते समय हमें उच्च परिशुद्धता आवश्यकताओं के साथ रूढ़िवादी मानदंड लेने की आवश्यकता हो सकती है।
  • हर जोड़े पर लालची दृष्टिकोण की कोशिश करने के लिए बहुत से लेखक पहचान हैं। (++ 100 मिलियन) हम अपने उपनामों से लेखकों के "ब्लॉक" बना रहे हैं।
  • केगल में सामान्य समस्याओं के विपरीत, इनपुट और आउटपुट परिभाषित नहीं हैं। इसका उद्देश्य कुछ स्तंभों में मूल्यों की भविष्यवाणी करना नहीं है, बल्कि समान वस्तुओं की पहचान करना है जब वे अलग-अलग संग्रहीत होते हैं और विभिन्न वस्तुओं को अलग करने के लिए जब वे एक के रूप में संग्रहीत होते हैं, तो बहुत उच्च जटिलता के कार्यों की आवश्यकता होती है। पूर्व के अध्ययनों में विशिष्ट डेटासेट के साथ रैंडम फ़ॉरेस्ट जैसे जेनेरिक मशीन लर्निंग मॉडल का उपयोग किया गया है। इन पिछले परीक्षणों का जिक्र करते हुए, हम आगे की तकनीकों जैसे अवरुद्ध, क्लस्टरिंग, लिंक विश्लेषण, और आदि को गले लगाएंगे।
  • हर समस्या को एक बार में हल नहीं कर सकता। गलत विलय वाले लेखकों को विभाजित करने के बजाय, हम सही ढंग से विलय करने वाले लेखकों पर ध्यान केंद्रित करेंगे जहां अपेक्षाकृत अधिक डेटा उपलब्ध हैं।

प्रयास किए गए

उपर्युक्त के रूप में, हमने उनके उपनामों के साथ लेखकों को अवरुद्ध किया है, और उन "उपनाम ब्लॉकों" के भीतर अनुसरण करने की कोशिश की है।

मानदंड 1: स्व-प्रशस्ति पत्र
- व्यक्तिगत लेखों के प्रभाव को मापने के लिए सूचना के सबसे प्रमुख स्रोत के रूप में प्रशस्ति पत्र का उपयोग किया जाता है। बहुत सारे शिक्षाविदों के साथ-साथ कुछ अन्य कारणों से, इस तरह अक्सर अतीत से अपनी पढ़ाई का हवाला दिया जाता है। इस पृष्ठभूमि के साथ, हम मानते थे कि यदि किसी उद्धृत लेख के लेखक और उद्धृत लेख उनके नामों में उच्च समानता रखते हैं, तो उनके एक ही व्यक्ति होने की उच्च संभावना है।
- उदाहरण के लिए, यदि "टेलर स्विफ्ट" द्वारा लिखित एक पेपर "टी" द्वारा लिखित एक पेपर का हवाला देता है। स्विफ्ट ”, यह अत्यधिक संभावना है कि“ टी। स्विफ्ट "टेलर स्विफ्ट" का एक संक्षिप्त नाम है और दोनों पत्रों को एक ही व्यक्ति, टेलर स्विफ्ट द्वारा लिखा गया है।
- इस विचार के आधार पर, प्रत्येक उपनाम ब्लॉक के लिए, हमारे डेटाबेस को पायथन नेटवर्कएक्स लाइब्रेरी, नोड्स के रूप में लेखकों और किनारों के रूप में उद्धरण का उपयोग करके नेटवर्क में संरचित किया गया था। (विशिष्ट उद्धरण आलेख नोड्स के रूप में पेपर सेट करेंगे) प्रत्येक उपनाम के उपसमूहों को देखते हुए, कई समान लेखक पाए गए थे।

मानदंड 2: सह-लेखक
- स्व-उद्धरण में उपरोक्त उदाहरण में तार्किक अनुमान के समान, समान नाम और समान सह-लेखक प्रोफाइल के साथ अलग-अलग लेखक की पहचान एक ही व्यक्ति होने की उच्च संभावना होगी।
- उदाहरण के लिए, यदि एडम स्मिथ का एक पेपर टेलर स्विफ्ट द्वारा लिखा गया था और एडम स्मिथ द्वारा एक अन्य पेपर टी। जे। स्विफ्ट द्वारा सह-लेखक किया गया था, तो हमारा मानना ​​है कि यह अत्यधिक संभावना है कि टी। जे। स्विफ्ट और टेलर स्विफ्ट एक ही व्यक्ति हैं।
- इस निष्कर्ष की जांच करने के लिए, हमने प्रत्येक लेखक के लिए सह-लेखक सूची बनाई, उनकी जोड़ीदार समानता की गणना की, और कई मामले पाए जहां वे वास्तव में एक ही लेखक प्रतीत होते थे।

https://scinapse.io/authors/2131370184 / https://scinapse.io/authors/2691289941

सीमाएं

हालाँकि हमें उपरोक्त परीक्षणों से कई सफल मामले मिले हैं, फिर भी हमने कई सीमाओं का सामना किया। इनमें न केवल उपयोग की जाने वाली कार्यप्रणाली से समस्याएं शामिल थीं, बल्कि डेटा पूर्व-प्रसंस्करण की आवश्यकता भी थी।

1. हम कभी नहीं जानते
यहां तक ​​कि जब हमने जाँच की है कि दो लेखक पहचानों में समान उपनाम, समान नाम प्रतिनिधित्व, सह-लेखक और पारस्परिक उद्धरण संबंध हैं, तब भी हम यह सुनिश्चित नहीं कर सकते कि वे एक ही व्यक्ति का प्रतिनिधित्व करते हैं। यह और भी बुरा है जब उनके नामों को प्रारंभिक रूप में संक्षिप्त किया जाता है। हम यह निर्धारित करने की कोशिश कर रहे हैं कि हमारे अपने मानदंड दो हैं या नहीं। (फिर, यह समस्या झूठी सकारात्मक के प्रति बहुत संवेदनशील है)

हमें यकीन नहीं है कि वे एक ही व्यक्ति हैं

2. विकृत डेटा
बहुत सारे अभिलेखों (लेखों) की पहचान उनके संदर्भों को गायब करने के लिए की गई (++ 10 मिलियन)। कुछ यादृच्छिक नमूनों को देखते हुए, उनमें से कई को संदर्भों से भरा माना जाता है। हम समाधान के साथ आने के प्रयास कर रहे हैं।
हम विकृत डेटा को फ़िल्टर करने के लिए अमूर्त में शब्द गणना का उपयोग करते हैं। चीनी भाषा में लिखे कागजों के मामले में, शब्द शायद ही काम करता हो। उनके दस्तावेजों को स्कैन करके अनुक्रमित किए गए कागजात के मामले में, स्पैकिंग अक्सर टूट जाती है (अक्सर लाइन ब्रेक को कैप्चर करने में विफलता के कारण)। हम प्रत्येक के लिए विकृतियों और समाधानों के अधिक मामलों की खोज कर रहे हैं।

विकृत डेटा के उदाहरण

3. गैर-शोध लेख
गैर-शैक्षणिक सामग्री होने के लिए कई दसियों लाख रिकॉर्ड की पहचान की गई थी। (या कम से कम अलग-अलग अनुक्रमण संरचनाओं की आवश्यकता होती है) इनमें शामिल हैं: पेटेंट, मेल, ऑडियो रिकॉर्ड, और आदि। हम संभव के रूप में इन प्रकार की कई वस्तुओं को पहचानने के लिए और अधिक पैटर्न के साथ आएंगे।
- पूर्व) कैरिबियन रिपोर्ट (बीबीसी द्वारा ऑडियो समाचार)
- पूर्व) डिक्टनायर हिस्टोरिक डू जापोन
- पूर्व) शास्त्रीय संगीत संगीत कार्यक्रम का ऑडियो रिकॉर्ड

4. एज केस
यूरोपियन ऑर्गनाइजेशन फॉर न्यूक्लियर रिसर्च (a.k.a CERN) के विशिष्ट पत्रों में कई दसियों से हजारों सह-लेखक होंगे।
- पूर्व) भौतिकी का पेपर रिकॉर्ड करता है जिसमें 5,000 से अधिक लेखक आने वाले हैं

आगामी

संक्षेप में, हमने स्व-उद्धरण और सह-लेखक प्रोफाइल के आधार पर कई सार्थक विश्लेषण हासिल किए हैं, लेकिन वे अपनी सीमाओं के साथ आते हैं। हम बेहतर गुणवत्ता वाले डेटा रखने के लिए डेटा प्री-प्रोसेसिंग पर अधिक प्रयास करेंगे, संसाधित डेटासेट पर पूर्व प्रयासों को फिर से दोहराएंगे, और उन तरीकों को बेहतर बनाने या उपन्यास दृष्टिकोण के साथ आने के लिए मूल्यांकन करेंगे।

धन्यवाद।

प्लूटो नेटवर्क
मुखपृष्ठ / गितुब / फेसबुक / ट्विटर / टेलीग्राम / माध्यम
स्किनैप्स: शैक्षणिक खोज इंजन
ईमेल: team@pluto.network