उन्नत वाक्य विश्लेषण के लिए तंत्रिका दृष्टिकोण

रुइदान हे, वेन्या वांग और डैनियल डहलमीयर (मशीन लर्निंग सिंगापुर)

सेंटीमेंट विश्लेषण प्राकृतिक भाषा प्रसंस्करण में सबसे सक्रिय अनुसंधान क्षेत्रों में से एक हो गया है क्योंकि डिजिटल रूपों में दर्ज किए गए राय डेटा की बढ़ती मात्रा के कारण। इसमें विभिन्न व्यवसायों और सामाजिक डोमेन में आवेदनों की एक विस्तृत श्रृंखला है, दोनों कंपनियों और व्यक्तियों को निर्णय लेने के लिए बेहतर जानकारी समझने में मदद करती है। हाल ही में, अधिक उन्नत कार्य जैसे कि पहलू-आधारित भावना विश्लेषण (ABSA) लोकप्रिय हो रहे हैं। एबीएसए इस विचार पर आधारित है कि एक राय में एक भावना और एक लक्ष्य होता है। अपने लक्ष्य की पहचान किए बिना एक राय सीमित उपयोग की है। इस प्रकार, इसका उद्देश्य संस्थाओं और / या उनके पहलुओं पर भावनाओं की खोज करना है। उदाहरण के लिए, एक रेस्तरां समीक्षा में "मुझे यह कहना है कि उनके पास शहर में सबसे तेज़ वितरण समय है" पहलू शब्द "वितरण समय" है, जिस पर एक सकारात्मक राय व्यक्त की जाती है। आमतौर पर, ABSA का पहला चरण पहलू निष्कर्षण है, जिसका उद्देश्य इनपुट टेक्स्ट से पहलू शब्द निकालना है। इस पोस्ट में, हम दोनों हाल ही में निगरानी और अनसुनी सेटिंग्स के तहत पहलू निष्कर्षण के लिए प्रभावी तंत्रिका मॉडल के निर्माण की समस्या पर हमारे हाल के शोध कार्य का सारांश देते हैं। यह काम SAP Industry Ph.D के तहत किया गया था। सिंगापुर के राष्ट्रीय विश्वविद्यालय और नानयांग प्रौद्योगिकी विश्वविद्यालय के सहयोग से कार्यक्रम।

पहलू निष्कर्षण अनुक्रम लेबलिंग समस्या के रूप में सामना किया

इस श्रेणी में, कार्य में प्रत्येक वाक्य के भीतर स्पष्ट रूप से प्रदर्शित होने वाले पहलू शब्द और राय शब्द का निष्कर्षण शामिल है। उपर्युक्त उदाहरण लेते हुए, समीक्षा वाक्य "मुझे यह कहना है कि उनके पास शहर में सबसे तेजी से वितरण समय में से एक है", हमारा कार्य डिलीवरी समय को एक पहलू शब्द के रूप में और सबसे तेजी से राय शब्द के रूप में पहचानना है। यह ज्ञान संरचित राय संक्षेप को प्राप्त करने के लिए उपयोगी है, जो बड़ी मात्रा में पाठ से मुख्य विषयों / पहलुओं और उनके संबंधित राय वितरण का एक स्पष्ट दृष्टिकोण प्रदान करता है। चित्र 1 दो डिजिटल कैमरों के बारे में संरचित राय सारांश का एक उदाहरण दिखाता है।

चित्रा 1: विज़ुअलाइज़ेशन राय दो डिजिटल कैमरों की तुलना

चूँकि हम जो लक्ष्य निकाल रहे हैं, उसमें कई शब्द शामिल हो सकते हैं, हम BIO लेबलिंग योजना लागू करते हैं, अर्थात, एक वाक्य में प्रत्येक शब्द को पाँच लेबल में से एक के रूप में लेबल किया जाता है: "बीए" (पहलू की शुरुआत), "आईए" (अंदर) पहलू "," बीओ "(राय की शुरुआत)," आईओ "(राय के अंदर) और" ओ "(अन्य)। इस तरह, कार्य पर्यवेक्षित अनुक्रम लेबलिंग समस्या के रूप में तैयार किया जाता है।

हम प्रत्येक वाक्य के भीतर शब्दों के बीच वाक्यात्मक निर्भरता संबंधों पर ध्यान केंद्रित करके समस्या का सामना करते हैं। निर्भरता पर ध्यान केंद्रित करने का कारण यह है कि पहलू शब्द और राय शब्दों के बीच कुछ वाक्यात्मक संबंध मौजूद हैं जो एक दूसरे को पहचानने में मदद करनी चाहिए। उदाहरण के लिए, जैसा कि चित्र 2 में दिखाया गया है, मछली बर्गर और स्वाद क्रमशः जमीनी सच्चाई पहलू हैं, साथ ही साथ उनकी राय के रूप में सबसे अच्छा और ताजा। एक पहलू शब्द के रूप में स्वाद को देखते हुए, ताजा को प्रत्यक्ष संबंध के माध्यम से एक राय शब्द के रूप में निकाला जा सकता है। और बर्गर को एक पहलू शब्द के रूप में दिया जाता है, परोक्ष संबंध के माध्यम से स्वाद को दूसरे पहलू शब्द के रूप में निकाला जा सकता है। इस अवलोकन के आधार पर, हम एक निर्भरता-वृक्ष-आधारित पुनरावर्ती तंत्रिका नेटवर्क का निर्माण करते हैं जो प्रत्येक शब्द के लिए उच्च-स्तरीय प्रतिनिधित्व की गणना करने में सक्षम होता है जो दूसरों के साथ अंतर्निहित निर्भरता संबंधों को शामिल करता है। इसके अलावा, हम सशर्त रैंडम फील्ड (CRF) नामक ग्राफिकल मॉडल के माध्यम से अनुक्रमिक संदर्भ इंटरैक्शन पर भी विचार करते हैं। दोनों मॉडलों को एक संयुक्त संरचना में संयोजित करके, जो एंड-टू-एंड प्रशिक्षित है, हम मौजूदा तरीकों की तुलना में आशाजनक परिणाम प्राप्त करते हैं। यह काम EMNLP'16 में पुनरावर्ती तंत्रिका सशर्त यादृच्छिक क्षेत्रों में पहलू-आधारित भावना विश्लेषण के लिए प्रकाशित किया गया है।

चित्र 2: भावना विश्लेषण के लिए एक निर्भरता उदाहरण

उसी कार्य पर ध्यान केंद्रित करते हुए, हमने AAAI17 में पहलू और राय शब्दों के सह-निष्कर्षण के लिए एक और पेपर कपल्ड मल्टी-लेयर अटेंडेंस प्रकाशित किया। यह कार्य एक स्वचालित ध्यान तंत्र के साथ पूर्व-संसाधित निर्भरता संबंधों को बदलकर पिछली पद्धति को आगे बढ़ाता है। पिछली पद्धति के साथ एक सीमा यह है कि पूर्व-निर्मित निर्भरता संबंध त्रुटियों से ग्रस्त हैं, विशेष रूप से जब अनौपचारिक ग्रंथों को पार्स करते हैं। गलत वाक्य रचना संरचना सीखने की प्रक्रिया को नुकसान पहुंचा सकती है। इसलिए, हम उन शब्दों के बीच बातचीत को स्वचालित रूप से जानने के लिए एंड-टू-एंड ध्यान मॉडल प्रस्तावित करते हैं। चित्र 3 मॉडल वास्तुकला को दर्शाता है। युग्मित ध्यान एक पहलू ध्यान और एक राय ध्यान देने के लिए संदर्भित करता है। वे सीखने की प्रक्रिया में पहलू शब्दों और राय शब्दों के बीच संबंध को सक्षम करने के लिए युग्मित (इंटरैक्टिव) हैं। हम पहलू के निष्कर्षण और राय निष्कर्षण के बारे में प्रत्येक वाक्य के भीतर सबसे अधिक प्रासंगिक शब्दों का चयन करने के लिए attentions का उपयोग करते हैं। इस मॉडल को किसी भाषाई संसाधनों की आवश्यकता नहीं है और फिर भी यह निर्भरता-आधारित मॉडल की तुलना में अधिक अंक प्राप्त कर सकता है।

चित्र 3: युग्मित ध्यान मॉडल का चित्रण

पहलू निष्कर्षण विषय मॉडलिंग समस्या के रूप में सामना किया

पर्यवेक्षित पहलू निष्कर्षण को प्रशिक्षण के उद्देश्य के लिए शब्द-स्तरीय लेबल डेटा की आवश्यकता होती है जो वास्तविकता में प्राप्त करना कठिन होता है। इसके विपरीत, हमारे हाल ही के एसीएल पेपर पहलू निष्कर्षण के लिए एक असुरक्षित तंत्रिका ध्यान मॉडल विषय मॉडलिंग का उपयोग करते हुए एक अनिश्चित सेटिंग में समस्या का सामना करता है। इस मामले में, कच्चे अनलेबल किए गए ग्रंथों को देखते हुए, उद्देश्य (1) रैंक किए गए शब्दों की सूचियों द्वारा दर्शाए गए पहलुओं (विषयों) का एक सेट निकालना है, जहां प्रत्येक पहलू में शीर्ष शब्दों को पहलू शब्द माना जाता है; (2) खोजे गए पहलुओं में से एक को कॉर्पस में प्रत्येक वाक्य को मैप करें। चित्र 4 उच्च-स्तरीय वर्कफ़्लो दिखाता है।

चित्र 4: उच्च-स्तरीय कार्य प्रवाह

उत्पाद समीक्षाओं को समझने के संदर्भ में, संरचित समीक्षा सारांश के निर्माण के लिए आउटपुट पहलुओं और पहलू-प्रासंगिक वाक्यों का उपयोग किया जा सकता है। चित्र 5 एक उदाहरण सारांश दिखाता है जो उपयोगकर्ताओं को बड़ी संख्या में समीक्षाओं से महत्वपूर्ण जानकारी को जल्दी से समझने में मदद करता है।

चित्र 5: एक उदाहरण रेस्तरां समीक्षा सारांश

इस कार्य की एक बड़ी चुनौती यह है कि अनुमानित पहलू असंगत होते हैं - पहलुओं में अक्सर असंबंधित या शिथिल संबंधित पहलू होते हैं। परंपरागत विषय मॉडल जैसे कि लेंटेंट डिरिचलेट आवंटन (एलडीए) के वेरिएंट के विपरीत, जो असतत शब्द प्रकारों पर काम करते हैं, हमने एक सरल अभी तक प्रभावी तंत्रिका वास्तुकला का प्रस्ताव रखा है जो अनुमानित पहलुओं के सुसंगतता में सुधार करता है।

जैसा कि चित्र 6 में दिखाया गया है, हमारे ध्यान-आधारित पहलू निष्कर्षण (एबीएई) मॉडल में, हम शब्दों को एम्बेडिंग के साथ दर्शाते हैं और लक्ष्य पहलू एम्बेडिंग का एक सेट सीखना है, जहाँ प्रत्येक पहलू को एम्बेडिंग स्पेस में इसके निकटतम शब्दों द्वारा व्याख्या किया जा सकता है। मॉडल इनपुट के रूप में एक समीक्षा वाक्य लेता है, प्रत्येक शब्द को पूर्व-प्रशिक्षित शब्द एम्बेडिंग के लिए मैप करता है। हम सबसे पहले डाउन-वेटिंग-नॉन-वर्ड शब्दों द्वारा ध्यान तंत्र का उपयोग करके शब्द एम्बेडिंग को फ़िल्टर करते हैं, और फ़िल्टर किए गए शब्द एम्बेडिंग के भारित योग के रूप में वाक्य का प्रतिनिधित्व करते हैं। फिर, हम पहलू एम्बेडिंग के रैखिक संयोजन के रूप में एम्बेड वाक्य को अनुमानित करने का प्रयास करते हैं। प्रशिक्षण प्रक्रिया ऑटोएन्कोडर्स के अनुरूप होती है, जहाँ हम एम्बेडेड वाक्यों के बीच सामान्य कारकों को निकालने के लिए आयाम में कमी का उपयोग करते हैं और वाक्य को पहलू एम्बेडिंग के भारित योग के रूप में पुन: निर्मित करते हैं। ध्यान तंत्र उन शब्दों पर जोर देता है जो किसी भी पहलू का हिस्सा नहीं हैं, जिससे मॉडल केवल पहलू शब्दों पर ध्यान केंद्रित कर सकता है।

चित्र 6: ABAE मॉडल का चित्रण

यह ध्यान देने योग्य है कि तंत्रिका ध्यान मॉडल को एक असुरक्षित सेटिंग में प्रशिक्षित किया जाता है, जहां उद्देश्य पुनर्निर्माण त्रुटि को कम करना है। हैरानी की बात है, हमने पाया कि इस स्थिति में सीखा गया ध्यान तंत्र अभी भी बहुत अच्छा काम करता है और सूचनात्मक पहलू शब्दों पर ध्यान केंद्रित करने में सक्षम है। हमारे प्रयोगों में, हमने दो मानदंडों का उपयोग करके मॉडल का मूल्यांकन किया: (1) क्या यह सार्थक और शब्दार्थ रूप से सुसंगत पहलुओं को खोजने में सक्षम है; (२) क्या यह खोजे गए पहलुओं में से किसी एक में इनपुट वाक्य को सटीक रूप से मैप करने में सक्षम है। हमारे प्रयोगात्मक परिणामों के अनुसार, हमारा मॉडल विभिन्न मूल्यांकन कार्यों पर पूर्व विषय मॉडल को महत्वपूर्ण और लगातार बेहतर बना सकता है।

यद्यपि इस काम में हम पहलू निष्कर्षण पर ध्यान केंद्रित करते हैं, भावना विश्लेषण के तहत एक विशिष्ट कार्य, हम वास्तव में एक सामान्य विषय मॉडलिंग समस्या पर विचार करते थे जिसका उद्देश्य मुख्य विषयों को अप्रकाशित ग्रंथों से निकालना है। इस प्रकार, हमारे मॉडल को विभिन्न प्रकार के पाठ के साथ समान कार्यों के लिए संभावित रूप से लागू किया जा सकता है।

पहलू निष्कर्षण ठीक-ठीक भावुक विश्लेषण का एक बड़ा कदम है और साहित्य में अनुक्रम लेबलिंग या विषय मॉडलिंग जैसे विभिन्न कार्यों के रूप में तैयार किया गया है। इस ब्लॉग पोस्ट में, हमने इस क्षेत्र में हाल ही में किए गए हमारे तीन कामों को संक्षिप्त रूप से पेश किया, जो विभिन्न सेटिंग्स के तहत समस्या का सामना कर रहे हैं। विस्तृत मॉडल स्पष्टीकरण और प्रयोगात्मक परिणामों के लिए, कृपया हमारे कागजात देखें। हम चाहते हैं कि हमारे कार्य पहलू निष्कर्षण पर भविष्य के अनुसंधान को प्रेरित करेंगे और उद्योग के लोगों को उन्नत भावना विश्लेषण के लिए प्रभावी सिस्टम बनाने में मदद करेंगे।