ऑटोमैटिक स्पीच रिकॉग्निशन ऑफ़ द स्टेट: क्यू एंड ए विद कालडी के डान पोवे

यह लेख स्वचालित भाषण मान्यता पर हमारी श्रृंखला जारी रखता है, जिसमें एएसआर के इतिहास पर हमारा हालिया टुकड़ा भी शामिल है।

स्वत: भाषण मान्यता के क्षेत्र में कुछ विशेषज्ञों ने डैनियल पोवे की तरह सहूलियत की बात की है। पोवे जॉन्स हॉपकिन्स विश्वविद्यालय में भाषा और भाषण प्रसंस्करण केंद्र में एसोसिएट रिसर्च प्रोफेसर हैं और कलदी परियोजना के प्रमुख डेवलपर और स्टीवर्ड हैं।

Kaldi एक ओपन-सोर्स ASR टूलकिट है; 2011 में अपनी शुरुआत के बाद से, इसने क्षेत्र को सुपरचार्ज करने में मदद की है, जिससे शोधकर्ताओं को एएसआर तकनीकों में नवीनतम लाभ उठाते हुए निर्माण करने के लिए एक मजबूत और लचीली नींव मिल गई है। (वास्तव में, डीस्क्रिप्ट अपनी कुछ विशेषताओं के लिए कलदी का उपयोग करता है!)

कलदी के क्षेत्र में व्यापकता के कारण, पोवी अपने हाल के कई घटनाक्रमों से जुड़ा हुआ है। हमने उनसे उद्योग की स्थिति के बारे में कुछ सवाल पूछे, और रोमांचित होकर उन्होंने कई जवाब दिए, जिनका जवाब हमने नीचे दिया है।

आज एएसआर की स्थिति क्या है? इसकी सबसे बड़ी कमी क्या है, और शोधकर्ता / उत्पाद सबसे अधिक प्रगति कहां कर रहे हैं?

यह अच्छा है कि ASR वास्तव में अब उपयोगी होने लगा है। जब मैंने शुरुआत की, तो सबसे अधिक दिखाई देने वाला एएसआर उत्पाद ड्रैगन डिक्टेट था, जिसे कुछ लोग वास्तव में इस्तेमाल करते थे- मेरा मानना ​​है कि इसे आदर्श क्रिसमस वर्तमान के रूप में विपणन किया गया था, जो भ्रामक था। इन दिनों हमारे पास अमेज़ॅन एलेक्सा और Google होम हैं, जिन्हें लोग वास्तव में उपयोग करते हैं - कॉल सेंटर डायलॉग सिस्टम का उल्लेख नहीं करना। वे नाराज़ हैं, लेकिन यह अक्सर ASR के बजाय संवाद प्रबंधन से एक सीमा है।

मेरे दिमाग में एक कमी यह है कि आर्थिक समझ बनाने वाले एएसआर के अधिकांश उपयोग अभी भी बहुत बड़े पैमाने पर होते हैं, क्योंकि इसे अच्छा प्रदर्शन करने वाली प्रणाली के निर्माण के लिए अत्यधिक भुगतान, कड़ी मेहनत करने वाले विशेषज्ञों की आवश्यकता होती है। कलदी उस अवरोध को कम कर देता है क्योंकि इसका मतलब है कि आपको अपने सॉफ़्टवेयर को जमीन से ऊपर नहीं बनाना है। यहां तक ​​कि इसमें ऐसे व्यंजन हैं जिनका आप अनुसरण कर सकते हैं, लेकिन यह अभी भी मूल रूप से विशेषज्ञों के उपयोग के लिए बनाया गया था। मैं कलदी को मिलेनियम फाल्कन की तरह मानता हूं। ज़रूर, यह केसेल को 12 पार्सेक से कम में चला सकता है, लेकिन जैसा कि हान ल्यूक से कहता है: "कौन इसे उड़ाने वाला है, बच्चा?"

शोधकर्ताओं की एक टीम ने कलदी सेटिंग्स को समायोजित किया

यह वास्तव में शिक्षाविदों के लिए एक समस्या है, कि ASR इतना अच्छा कर रहा है। इसे कुछ फंडिंग एजेंसियों ने "हल की गई समस्या" के रूप में देखा है। इसका मतलब है कि हम कई पीएचडी छात्रों को स्नातक नहीं कर सकते हैं, और उद्योग से मांग को पूरा करने के लिए बहुत कम पीएचडी स्नातक हैं। इसके अलावा, उद्योग के लिए सर्वश्रेष्ठ शिक्षाविदों के कई दोष हैं।

आप Google और अन्य प्रमुख कंपनियों द्वारा पेश की जाने वाली प्रतिलेखन सेवाओं की ताकत कहाँ देखते हैं? ये कालदी से कैसे तुलना करते हैं, और वे एक दूसरे के बीच कैसे भिन्न हैं?

एक सामान्य-उद्देश्य मॉडल का निर्माण करना कठिन है जो आपके विशिष्ट कार्य के लिए निर्मित मॉडल के रूप में भी काम करेगा। Google के ASR मॉडल बहुत अच्छे हैं, लेकिन उन्होंने आपके मॉडल को आपके विशिष्ट परिदृश्य के लिए अनुकूलित नहीं किया है। इसके अलावा उनकी सेवा मुफ़्त नहीं है, और कभी-कभी गोपनीयता के मुद्दे होते हैं जो क्लाउड सेवा के उपयोग को रोकते हैं। यह जानना वास्तव में कठिन है कि कलदी Google के ASR के साथ तुलना कैसे करता है क्योंकि वे आमतौर पर उपलब्ध डेटासेट पर प्रदर्शन के आंकड़े जारी करने के बारे में पिंजरे में रहते हैं, लेकिन हम अन्य प्रमुख कंपनियों द्वारा निर्मित सिस्टम के साथ तुलना कर सकते हैं जो इस तरह के आंकड़े जारी करते हैं (जैसे कि Microsoft या आईबीएम)।

आम तौर पर, कलदी उसी के बारे में प्रदर्शन करता है। वास्तव में, स्विचबोर्ड सबसेट Eval2000 पर वर्तमान सबसे अच्छी संख्या, जो 5.0% वर्ड एरर रेट है, एक कलदी-आधारित प्रणाली है - हालांकि हमारे द्वारा नहीं बनाई गई है, लेकिन एक कंपनी द्वारा जिसे cap.io कहा जाता है। यह एक विशाल प्रणाली संयोजन है, जो कि आप तब करते हैं जब आप सबसे अच्छी संख्या प्राप्त करना चाहते हैं।

एएसआर में हालिया प्रगति में डेटा के बड़े कॉर्पस तक पहुंच शामिल है - जिससे बड़ी कंपनियों को फायदा होता है। इस बीच मोज़िला कॉमन वॉयस जैसी पहल कम से कम इस लिहाज से खेल के मैदान को समतल करना चाहती है।

आप इसे कैसे देखते हैं: क्या 'बड़ा डेटा' प्रतिस्पर्धात्मक लाभ से कम हो जाएगा?

मैं विवाद करता हूं कि एएसआर में हालिया प्रगति में बड़ी मात्रा में डेटा तक पहुंच शामिल है। हां, ऐसे कागजात हैं जो कहते हैं: "हमने हजारों घंटे के मालिकाना आंकड़ों पर एक विशाल मॉडल बनाया और स्विचबोर्ड एवल 2000 पर यह अद्भुत प्रदर्शन किया।" उस प्रकार के कागजात उस कंपनी के लिए बहुत बड़ी पीआर जीत हो सकती है जिसने उन्हें प्रकाशित किया था, लेकिन वे इस क्षेत्र को आगे नहीं बढ़ाते हैं। हम हमेशा से जानते हैं कि आपके पास जितना अधिक डेटा होगा, आप उतना ही बेहतर कर सकते हैं, इसलिए वास्तव में वहां कुछ भी नया नहीं है; और मेरे विचार से यह मामला नहीं है कि जिन लोगों के पास बड़े डेटा तक पहुंच है, उन्होंने इसका उपयोग विशेष रूप से दिलचस्प नए तरीकों को विकसित करने के लिए किया है। वैसे भी, कुछ ऐसा जो केवल दस हज़ार घंटों के डेटा पर काम करता है, वह दिलचस्प नहीं है, मेरी राय में, क्योंकि अधिकांश समय आपने सही प्रकार का उतना डेटा नहीं जीता है।

लोग उन चीजों के बारे में उत्साहित होते हैं जो बड़े डेटा पर काम करते हैं - आजकल यह एक तरह का फैशन है - लेकिन मैं मानता हूं कि छोटा डेटा भी उतना ही दिलचस्प है। यदि आप एक ऐसे एप्लिकेशन का निर्माण कर रहे हैं जिसके लिए आपके पास प्रशिक्षण डेटा नहीं है जो अच्छी तरह से मेल खाता है - और अधिकांश एप्लिकेशन ऐसे हैं - आप शायद यह चाहते हैं कि जब आप 10 घंटे के डेटा के साथ प्रशिक्षित हों, तो आप इसे अच्छी तरह से काम कर सकें। उचित प्रदर्शन के साथ एक प्रोटोटाइप का निर्माण करें। यह आपको अपने डेटा को स्केल करने की अनुमति देगा (या अगले दौर की फंडिंग प्राप्त करेगा)। यह एक मछली की तरह है: बड़ा होने के लिए, जब यह छोटा होता है तो जीवित रहने में सक्षम होने की आवश्यकता होती है, क्योंकि मछली बड़ी पैदा नहीं होती है।

स्केल करने के लिए निश्चित रूप से एक फायदा है, लेकिन मुझे नहीं लगता कि यह डेटा के पैमाने के बारे में है। यह आपके आवेदन के निर्माण की लागत के बारे में भी है। उन लागतों को ज्यादातर तय किया जाता है (वे आपके बाजार के आकार के साथ पैमाने पर नहीं होते हैं), इसलिए लाभ कमाने के लिए आपको एक निश्चित पैमाने की आवश्यकता होती है। बेशक जिस पैमाने पर आप तोड़ सकते हैं, वह समय के साथ कम हो जाएगा, क्योंकि एल्गोरिदम बेहतर हो जाएगा और सॉफ्टवेयर का उपयोग करना आसान हो जाएगा। आम तौर पर प्रशिक्षण डेटा की लागत बोलना अभी भी आपके एएसआर इंजीनियरों को भुगतान करने से कम होगा।

मोज़िला कॉमन वॉयस के बारे में: यह अच्छा है कि वे डेटा एकत्र कर रहे हैं, और मुफ्त डेटा हमेशा एक अच्छी बात है, लेकिन आपको यह याद रखना चाहिए कि विभिन्न प्रकार के डेटा हैं। यदि आप निर्माण, कहना चाहते हैं, तो मिश्रित हिंदी और भारतीय-उच्चारण अंग्रेजी में कॉल सेंटर वार्तालापों को संसाधित करने के लिए एक पहचानकर्ता या कार के अंदर मंदारिन में आदेशों से निपटने के लिए, मोज़िला कॉमन वॉयस डेटा की मदद करने वाला नहीं है। और अनुसंधान के संदर्भ में, लोगों के लिए काम करने के लिए पहले से ही पर्याप्त मुक्त बड़े पैमाने पर डेटाबेस हैं (उदाहरण के लिए, लाइब्रिस्पीर 1000 घंटे है)। इसलिए मोज़िला कॉमन वॉइस वास्तव में अनुसंधान के मामले में गेम चेंजर नहीं है। यह अभी भी इस उद्देश्य के लिए उपयोगी है कि उन्होंने इसे एकत्र किया है, हालांकि, जो एक ऐसे ब्राउज़र के लिए एएसआर सिस्टम का निर्माण करना है जो आवाज आदेशों को स्वीकार करता है।

क्या ASR के वर्तमान दृष्टिकोणों में कमियां हैं जो कम रिटर्न की ओर ले जाएंगी? क्या आप उम्मीद करते हैं कि हम सटीकता के मामले में एक 'दीवार' से टकराएंगे?

वहाँ हमेशा किसी न किसी तरह की दीवार बनी रहती है, क्योंकि मानव भाषण स्वाभाविक रूप से अस्पष्ट है, यहां तक ​​कि संदर्भ को भी ध्यान में रखते हुए। मुझे नहीं पता है कि मैं इस बारे में बहुत कुछ कह सकता हूं क्योंकि "वर्तमान दृष्टिकोण" में बहुत सी चीजें शामिल हैं। मैं जो कहूंगा वह यह है कि मुझे "एंड-टू-एंड" भाषण मान्यता के लिए वर्तमान जुनून के बारे में संदेह है।

(एड। नोट: अधिकांश एएसआर सिस्टम कई अलग-अलग मॉडलों का उपयोग करते हैं - ध्वनिक, उच्चारण, और भाषा - अग्रानुक्रम में। अंत-से-अंत सिस्टम सभी को एक बार में भाषण देने की कोशिश करते हैं।)

मेरी राय में इन "एंड-टू-एंड" दृष्टिकोणों को परिभाषित करने की सुविधा प्रणाली से बाहर ले जाने का प्रयास है: चाहे वह संरचना भाषा मॉडल हो, शब्दों के उच्चारण का ज्ञान हो, या भाषण सुविधा निष्कर्षण की अवधारणा हो। और अन्य चीजें भी।

इसलिए यह एक सरलीकरण है। बेशक, सरल अच्छा है, लेकिन लोग भूल जाते हैं कि संरचना एक कारण से वहां थी। उदाहरण के लिए, शब्दों में वास्तव में उच्चारण होते हैं जो उनके वर्तनी से अलग होते हैं; और एएसआर सिस्टम से भाषा मॉडल को अलग से प्रशिक्षित करने का कोई मतलब नहीं है क्योंकि आप इसके लिए अलग पाठ डेटा का उपयोग कर सकते हैं। लोगों को लगता है कि सिस्टम से संरचना को बाहर निकालने से तंत्रिका नेटवर्क की परी धूल प्रदर्शन में सुधार करेगी, लेकिन मुझे लगता है कि यह एक मृगतृष्णा है।

यह देखते हुए कि एएसआर में कितना ध्यान और पैसा लगाया जा रहा है, क्या वास्तव में प्रगति में तेजी आ सकती है?

मुझे लगता है कि हम जिस चीज की उम्मीद कर सकते हैं, वह यह है कि हम उसी दर पर प्रगति करते रहेंगे जो हम हाल ही में बना रहे हैं। एएसआर को दिए जा रहे अधिकांश ध्यान इस तरह का ध्यान नहीं है जो वैसे भी प्रगति में योगदान देगा। और एएसआर में हाल के कुछ सुधार उन विचारों से आए हैं जो मोटे तौर पर एएसआर में काम नहीं कर रहे लोगों द्वारा विकसित किए गए थे: उदाहरण के लिए, बैच-नॉर्म्स या आरएनएनएलएम। अगर प्रगति यहाँ रुक गई, तो मुझे बहुत निराशा होगी।