ASR का संक्षिप्त इतिहास: स्वचालित भाषण मान्यता

यह स्वचालित भाषण मान्यता पर एक श्रृंखला में पहली पोस्ट है, यह मूलभूत तकनीक है जो डिस्क्रिप्ट को संभव बनाती है। हम उद्योग की वर्तमान स्थिति की खोज कर रहे हैं, जहाँ यह शीर्षस्थ है - और इस किस्त में, जहाँ यह है।

स्वचालित रूप से वाक् पहचान (ASR) में हाल की प्रगति द्वारा सक्षम रचनात्मक सॉफ़्टवेयर की एक नई पीढ़ी का हिस्सा बनने के लिए डिस्क्रिप्ट को गर्व है। यह एक रोमांचक समय है: प्रौद्योगिकी ने हाल ही में एक सीमा पार कर ली है जो इसे उल्लेखनीय उपयोगिता के लिए अपने लंबे समय के वादे को पूरा करती है, और यह केवल बेहतर हो रही है।

इस पल को आने में काफी समय हो गया है। भाषण मान्यता के पीछे की तकनीक आधी सदी से भी अधिक समय से विकास में है, जो कई वर्षों के गहन वादे से गुजर रही है - और निराशा। तो वाणिज्यिक अनुप्रयोगों में एएसआर को व्यवहार्य बनाने के लिए क्या बदल गया? और वास्तव में ये सिस्टम क्या पूरा कर सकते हैं, बहुत पहले हम में से किसी ने सिरी के बारे में सुना था?

भाषण मान्यता की कहानी कच्ची प्रौद्योगिकी के विकास के रूप में विभिन्न दृष्टिकोणों के अनुप्रयोग के बारे में है, हालांकि दोनों का अटूट संबंध है। दशकों के दौरान, शोधकर्ता भाषा को विच्छेदित करने के असंख्य तरीकों की कल्पना करेंगे: ध्वनियों द्वारा, संरचना द्वारा - और आँकड़ों के साथ।

शुरुआती दिन

भाषण को पहचानने और संश्लेषित करने में मानव की रुचि सैकड़ों वर्ष (कम से कम!) - लेकिन यह 20 वीं शताब्दी के मध्य तक नहीं थी कि हमारे पूर्वजों ने ASR के रूप में कुछ पहचानने योग्य बनाया था।

1961 - आईबीएम शोएबॉक्स

1952 में बेल लेबोरेटरीज में शोधकर्ताओं द्वारा बनाई गई ऑड्रे नामक सबसे शुरुआती परियोजनाओं में एक "अंक पहचानकर्ता" था। ऑड्रे ने ध्वनि-संबंधी आसवन - ऑडियो फिंगर प्रिंट की तलाश में बोले हुए संख्यात्मक अंकों की पहचान की।

1960 के दशक में, आईबीएम ने शोबॉक्स को विकसित किया - एक प्रणाली जो "प्लस" और "कुल" जैसे अंकों और अंकगणितीय आदेशों को पहचान सकती थी। बेहतर अभी तक, शोबॉक्स गणित की समस्या को एक जोड़ने की मशीन में पारित कर सकता है, जो उत्तर की गणना और प्रिंट करेगा।

इस बीच जापान में शोधकर्ताओं ने हार्डवेयर का निर्माण किया जो स्वर जैसे भाषण के घटक भागों को पहचान सकता था; अन्य प्रणालियां यह पता लगाने के लिए भाषण की संरचना का मूल्यांकन कर सकती हैं कि कोई शब्द कहां समाप्त हो सकता है। और इंग्लैंड में यूनिवर्सिटी कॉलेज की एक टीम, एक भाषा के असतत ध्वनियों, ध्वनि का विश्लेषण करके 4 स्वर और 9 व्यंजन पहचान सकती है।

लेकिन जब क्षेत्र वृद्धिशील कदमों को आगे ले जा रहा था, तो यह स्पष्ट रूप से स्पष्ट नहीं था कि रास्ता कहाँ बढ़ रहा है। और फिर: आपदा।

अक्टूबर १ ९ ६ ९ - द जर्नल ऑफ़ द अकाउज़िकल सोसाइटी ऑफ़ अमेरिका

एक भेदी फ्रीज

मोड़ 1969 में जॉन आर। पियर्स द्वारा लिखे गए एक पत्र के रूप में आया।

पियर्स ने लंबे समय से खुद को अंतरराष्ट्रीय ख्याति के इंजीनियर के रूप में स्थापित किया था; अन्य उपलब्धियों के बीच उन्होंने ट्रांजिस्टर शब्द (अब इंजीनियरिंग में सर्वव्यापी) गढ़ा और पहली बार संचार उपग्रह इको I लॉन्च करने में मदद की। 1969 तक वह बेल लैब्स में एक कार्यकारी थे, जिन्होंने भाषण मान्यता के विकास में बड़े पैमाने पर निवेश किया था।

द जर्नल ऑफ द एसेक्लॉजिकल सोसाइटी ऑफ अमेरिका में प्रकाशित एक खुले पत्र में, पियर्स ने अपनी चिंताओं को रखा। द्वितीय विश्व युद्ध और स्पूतनिक के बाद एक "रसीला" फंडिंग के माहौल का हवाला देते हुए, और जवाबदेही की कमी के कारण, पियर्स ने वैज्ञानिक कठोरता की कमी के लिए क्षेत्र को स्वीकार किया, यह मानते हुए कि बहुत अधिक जंगली उत्तेजना चल रही थी:

"हम सभी मानते हैं कि भाषण का एक विज्ञान संभव है, लोगों के क्षेत्र में बिखराव के बावजूद जो वैज्ञानिकों की तरह व्यवहार करते हैं और विज्ञान की तरह दिखने वाले परिणामों के लिए।" - जे.आर. पियर्स, 1969

पियर्स ने अपने नियोक्ता का पैसा लगा दिया जहां उसका मुंह था: उसने बेल के एएसआर कार्यक्रमों को रोक दिया, जो 1971 में इस्तीफा देने के बाद तक बहाल नहीं किया जाएगा।

प्रगति जारी है

शुक्र है कि कहीं और आशावाद था। 1970 के दशक की शुरुआत में, अमेरिकी रक्षा विभाग के ARPA (अब DARPA के रूप में जानी जाने वाली एजेंसी) ने स्पीच अंडरस्टैंडिंग रिसर्च नामक एक पाँच साल के कार्यक्रम को वित्त पोषित किया। इसके कारण कई नए ASR सिस्टम का निर्माण हुआ, जिनमें से सबसे सफल कार्नेगी मेलन यूनिवर्सिटी का हार्पी था, जो 1976 तक सिर्फ 1000 से अधिक शब्दों को पहचान सकता था।

इस बीच आईबीएम और एटी एंड टी की बेल लेबोरेटरीज के प्रयासों ने प्रौद्योगिकी को संभावित वाणिज्यिक अनुप्रयोगों की ओर धकेल दिया। आईबीएम ने कार्यालय पत्राचार के संदर्भ में भाषण प्रतिलेखन को प्राथमिकता दी, और बेल का संबंध ized कमांड और कंट्रोल 'परिदृश्यों से था: वॉइस डायलिंग और स्वचालित फोन पेड़ों के अग्रदूत जो हम आज जानते हैं।

इस प्रगति के बावजूद, 1970 के दशक के अंत तक एएसआर अभी भी कुछ भी लेकिन अत्यधिक विशिष्ट उपयोग के मामलों के लिए व्यवहार्य होने से एक लंबा रास्ता तय किया गया था।

इससे मेरे सिर में भी दर्द होता है।

The 80 के दशक: मार्कोव्स और अधिक

एक महत्वपूर्ण मोड़ 1980 के दशक के मध्य में हिडन मार्कोव मॉडल (HMM) के लोकप्रियकरण के साथ आया। इस दृष्टिकोण ने एक महत्वपूर्ण बदलाव का प्रतिनिधित्व किया "सरल पैटर्न मान्यता विधियों से, टेम्पलेट्स और भाषण प्रसंस्करण के लिए एक सांख्यिकीय पद्धति के आधार पर," प्रसंस्करण के लिए एक सांख्यिकीय पद्धति "- जो सटीकता में एक छलांग के लिए अनुवादित है।

1960 के दशक के उत्तरार्ध से भाषण मान्यता प्रणालियों में सुधार का एक बड़ा हिस्सा इस सांख्यिकीय दृष्टिकोण की शक्ति के कारण है, जो HMMs.⁵ को लागू करने के लिए आवश्यक कंप्यूटर प्रौद्योगिकी में प्रगति के साथ मिलकर है।

HMMs ने तूफान से उद्योग लिया - लेकिन वे रातोंरात सफल नहीं रहे। जिम बेकर ने पहली बार उन्हें सीएमयू में 1970 के दशक में भाषण मान्यता के लिए लागू किया था, और स्वयं मॉडल को लियोनार्ड ई। बॉम द्वारा s 60 के दशक में वर्णित किया गया था। यह 1980 तक नहीं था, जब जैक फर्ग्यूसन ने इंस्टीट्यूट फॉर डिफेंस एनालिसिस में प्रकाशित व्याख्यान का एक सेट दिया, कि तकनीक अधिक व्यापक रूप से प्रचारित करना शुरू कर दिया।

एचएमएम की सफलता ने आईबीएम के वाटसन रिसर्च सेंटर में फ्रेडरिक जेलिनेक के काम को मान्य किया, जिन्होंने 1970 के दशक के शुरुआत से ही भाषणों की व्याख्या करने के लिए सांख्यिकीय मॉडल के उपयोग की वकालत की थी, बजाय इसके कि कंप्यूटर इंसानों को भाषा पचाने के तरीके की नकल करने के लिए कंप्यूटर की कोशिश कर रहा हो: अर्थ के माध्यम से। वाक्यविन्यास, और व्याकरण (उस समय एक सामान्य दृष्टिकोण)। जैसा कि जलिनक ने बाद में कहा: "हवाई जहाज अपने पंख फड़फड़ाते नहीं हैं।" put

इन डेटा-संचालित दृष्टिकोणों ने भी प्रगति की सुविधा प्रदान की, जो उद्योग के सहयोग और व्यक्तिगत यूरेका क्षणों के रूप में जवाबदेही के साथ बहुत कुछ करना था। सांख्यिकीय मॉडलों की बढ़ती लोकप्रियता के साथ, एएसआर क्षेत्र ने परीक्षणों के एक सूट के चारों ओर तालमेल शुरू किया जो कि तुलना करने के लिए एक मानकीकृत बेंचमार्क प्रदान करेगा। साझा किए गए डेटा सेटों की रिहाई से इसे और बढ़ावा मिला: डेटा के बड़े कॉर्पस जिनका उपयोग शोधकर्ता अपने मॉडलों को प्रशिक्षित करने और परीक्षण करने के लिए कर सकते थे।

दूसरे शब्दों में: अंत में, सफलता को मापने और तुलना करने का एक (अपूर्ण) तरीका था।

नवंबर 1990, Infoworld

उपभोक्ता उपलब्धता - ‘90 के दशक में

बेहतर और बदतर के लिए, 90 के दशक ने उपभोक्ताओं को एक ऐसे रूप में स्वत: भाषण पहचान के लिए पेश किया, जिसे हम आज पहचानते हैं। ड्रैगन डिक्टेट को $ 9,000 के चौंका देने के लिए 1990 में लॉन्च किया गया था, जिसमें 80,000 शब्दों का एक शब्दकोश और प्राकृतिक भाषा प्रसंस्करण जैसी विशेषताएं शामिल हैं (ऊपर Infoworld लेख देखें)।

ये उपकरण समय लेने वाले थे (लेख में अन्यथा दावा किया गया है, लेकिन ड्रैगन उपयोगकर्ताओं को अपनी स्वयं की आवाज के लिए डिक्टेशन सॉफ्टवेयर को प्रशिक्षित करने के लिए जाना जाता है)। और इसके लिए आवश्यक था कि उपयोगकर्ता कड़े अंदाज में बात करें: ड्रैगन शुरू में एक मिनट में केवल 30-40 शब्दों को ही पहचान सकता था; लोग आमतौर पर चार गुना तेजी से बात करते हैं।

लेकिन इसने ड्रैगन के लिए काफी काम किया और सैकड़ों कर्मचारियों, और स्वास्थ्य सेवा, कानून, और बहुत से ग्राहकों के साथ व्यापार में वृद्धि की। 1997 तक कंपनी ने ड्रैगन नेचुरलीस्पीकिंग शुरू की, जो अधिक तरल गति से शब्दों को पकड़ सकता था - और, $ 150 पर, बहुत कम कीमत-टैग⁸।

फिर भी, प्रसन्नता के अवसरों के रूप में कई बड़बड़ाए गए हो सकते हैं: इस हद तक कि आज ASR के चारों ओर उपभोक्ता संदेह है, कुछ का श्रेय इन शुरुआती उत्पादों के अति-उत्साही विपणन को जाना चाहिए। लेकिन उद्योग के अग्रणी जेम्स और जेनेट बेकर (जिन्होंने 1982 में ड्रैगन सिस्टम की स्थापना की) के प्रयासों के बिना, एएसआर के उत्पादीकरण में अधिक समय लग सकता है।

नवंबर 1993, IEEE संचार पत्रिका

स्पीच रिकग्निशन - सीक्वल

जेआर पियर्स के पेपर प्रकाशित होने के 25 साल बाद, IEEE ने एक अनुवर्ती शीर्षक दिया, जिसका शीर्षक है वाक् पहचान: अगले 25 वर्षों में, बेल लेबोरेटरीज के दो वरिष्ठ कर्मचारियों द्वारा लिखित (पियर्स काम किया था)।

उत्तरार्द्ध लेख उद्योग की स्थिति का सर्वेक्षण करता है 1993, जब पेपर प्रकाशित हुआ था - और मूल के निराशावाद के लिए एक प्रकार के खंडन के रूप में कार्य करता है। इसके टेकअवे के बीच:

  • पियर्स के पत्र के साथ मुख्य मुद्दा उनकी धारणा थी कि भाषण मान्यता को उपयोगी बनाने के लिए, कंप्यूटर को यह समझने की आवश्यकता होगी कि शब्दों का क्या अर्थ है। उस समय की तकनीक को देखते हुए, यह पूरी तरह से संभव था।
  • एक अर्थ में, पियर्स सही था: 1993 तक कंप्यूटरों में भाषा की समझ कम थी - और 2018 में, वे अभी भी समझदारी के साथ बदनाम हैं।
  • पियर्स की गलती ने असंख्य मायनों को पहचानने की असफलता में उनकी विफलता को पहचाना, जब कंप्यूटर वास्तव में शब्दों का अर्थ नहीं जानता, तब भी यह उपयोगी हो सकता है।

1993 के बाद के वर्षों में ASR के प्रमुख होने की भविष्यवाणी करते हुए, अगली कड़ी समाप्त हो जाती है। इस खंड को गाल की हेजेज ("हम विश्वासपूर्वक अनुमान लगाते हैं कि इन आठ भविष्यवाणियों में से कम से कम एक गलत हो जाएगा) -" यह सब समान है। उनकी आठ भविष्यवाणियों में:

  • "वर्ष 2000 तक, अधिक लोगों को दूरस्थ डेटाबेस तक पहुंचने के लिए कंप्यूटर कीबोर्ड पर कमांड टाइप करके आवाज संवाद के माध्यम से दूरस्थ जानकारी मिलेगी।"
  • “लोग वाक् पहचान उपकरणों का उपयोग करने के लिए अपनी भाषण की आदतों को संशोधित करना सीखेंगे, जैसे उन्होंने उत्तर देने वाली मशीनों पर संदेश छोड़ने के लिए अपने बोलने के व्यवहार को बदल दिया है। भले ही वे सीखेंगे कि इस तकनीक का उपयोग कैसे करना है, लोग हमेशा भाषण पहचानकर्ताओं के बारे में शिकायत करेंगे। ”

द डार्क हॉर्स

इस श्रृंखला में आगामी किश्त में, हम हाल के घटनाक्रमों और स्वचालित भाषण मान्यता की वर्तमान स्थिति की खोज करेंगे। स्पॉयलर अलर्ट: तंत्रिका नेटवर्क ने एक अभिनीत भूमिका निभाई है।

लेकिन तंत्रिका नेटवर्क वास्तव में उतने ही पुराने हैं जितने कि यहां वर्णित अधिकांश दृष्टिकोण हैं - उन्हें 1950 के दशक में पेश किया गया था! यह आधुनिक युग की कम्प्यूटेशनल शक्ति (बहुत बड़े डेटा सेटों के साथ) तक नहीं था कि उन्होंने परिदृश्य को बदल दिया।

लेकिन हम खुद से आगे निकल रहे हैं। मध्यम, ट्विटर, या फेसबुक पर डिस्क्रिप्ट के बाद स्वचालित भाषण मान्यता पर हमारी अगली पोस्ट के लिए बने रहें।

Juang और Rabiner¹ के माध्यम से समयरेखा

नोट: एएसआर का इतिहास इस टुकड़े में विस्तार से अधिक योगदान और नवाचारों से भरा है; हमने कुछ प्रमुख मील के पत्थरों को कवर किया है और नीचे पढ़ने के लिए लिंक शामिल हैं। यदि हम कुछ महत्वपूर्ण चूक गए हैं, तो हमें बताएं!

आगे की पढाई

यहां वे संसाधन दिए गए हैं जो इस टुकड़े को लिखने में मददगार थे, जिनमें से कुछ अधिक विस्तार में गए:

  1. स्वचालित भाषण मान्यता - प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास। B.H. जुआंग और लॉरेंस आर। राबिनर। यदि आप ASR के अधिक व्यापक इतिहास में रुचि रखते हैं, तो यह एक महान संसाधन है।
  2. शोएबॉक्स - आईबीएम इतिहास प्रदर्शनी

3. स्पीच रिकॉग्निशन? - जेआर पियर्स

4. फर्स्ट-हैंड: द हिडन मार्कोव मॉडल - लॉरेंस आर। राबिनर

5. स्पीच रिकग्निशन: द नेक्स्ट 25 ईयर्स - डी.बी. रो और जे.जी. Wilpon

6. भाषण और आवाज की पहचान की समयरेखा - विकिपीडिया

7. भाषण मान्यता - विकिपीडिया

8. ड्रैगन नेचुरली स्पीकिंग, 1998- शैफाली पुरी के बारे में फॉर्च्यून लेख

9. फ्रेडरिक जेलिनक, हू गिव मशीन टू द ह्यूमन स्पीच, डीज़ इन 77 - स्टीव लॉहर

10. भाषण और वक्ता मान्यता में प्रगति के पचास साल - सदाओकी फुरई

रीलोइंग के अरलो फारिया और एडम जेनिन को धन्यवाद जिन्होंने बहुमूल्य ऐतिहासिक संदर्भ प्रदान किया।