हैलो दोस्तों आज हम बात करने वाले है, what is speech recognition (वाक् पहचान क्या है?) के बारे मे बताने वाले है, तो चलिए शुरू करते हैं।
What is speech recognition-
कम्प्यूटर द्वारा बोली मे बोली जाने वाली भाषा की पहचान और अनुवाद को यह सक्षम बनाता है, भाषण मान्यता कम्यूटेशनल भाषा विज्ञान का अंतर अनुशासनिक उपक्षेत्र हैं, जो उन पद्धतियों और प्रोद्योगिकीयो को विकसित करता हैं, इसे स्वचलित भाषा मान्यता, कम्प्यूटर भाषण मान्यता या टेक्स्ट टू स्पीच के रूप में भी जाना जाता हैं।इसे भाषा विज्ञान, कम्प्यूटर विज्ञान और इलेक्ट्रॉनिक इंजीनियरिंग क्षेत्रों मे ज्ञान और अनुसंधान शामिल हैं।
स्पीकर स्वतंत्र और स्पीकर आश्रित क्या है?
जहाँ एक व्यक्ति या वक्ता सिस्टम में पाठ या पॄथक शब्दावली पढता है प्रणाली व्यक्ति की विशिष्ट आवाज का विश्लेषण करती है, और उस व्यक्ति के भाषण की पहचान को सुदृढ करने के लिए इसका उपयोग करती हैं जिसके परिणामस्वरूप सटीकता बढ जाती हैं, जो सिस्टम प्रशिक्षण का उपयोग नहीं करते उन्हें स्पीकर स्वतंत्र सिस्टम कहा जाता हैं, और जो सिस्टम प्रशिक्षण का उपयोग करते हैं उन्हें स्पीकर आश्रित कहा जाता हैं।
आवाज की पहचान करना -----
स्पीकर को पहचानना सिस्टम मे भाषण का अनुवाद करने के कार्य को सरल बना सकता हैं जिसे किसी विशिष्ट व्यक्ति की आवाज पर प्रशिक्षित किया गया है, या इसका उपयोग किसी सुरक्षा प्रक्रिया के हिस्से के रूप में स्पीकर की पहचान को प्रमाणित करने या सत्यापित करने के लिए किया जा सकता हैं, आवाज पहचान या स्पीकर पहचान शब्द स्पीकर की पहचान करने के लिए संदर्भित करता हैं, ।।
हाल ही में, क्षेत्र को गहरी शिक्षा और बङे डेटा मे प्रगति से फायदा हुआ है, प्रगति ना केवल क्षेत्र मे प्रकाशित शैक्षणिक पत्रों के उदय से प्रमाणित है बल्कि दुनिया भर में उद्योग द्वारा भाषण मान्यता प्रणाली को डिजाइन और तैनात करने के विभिन्न प्रकार की गहरी सीखने के तरीकों को अपनाना हैं इस भाषण उद्योग के खिलाड़ियों में Google, Microsoft, IBM, Baidu, Apple, Amazon,,nuance, soundhound, Iflytey शामिल हैं, जिनमें से कई ने अपनी भाषण मान्यता प्रणाली में कोर तकनीक को गहरी शिक्षा के आधार पर प्रचारित किया हैं।
भाषा माडलिंग-
भाषण मान्यता एल्गोरिदम के महत्वपूर्ण भाग है कई प्रणालियों मे छुपे हुए मार्कोव माॅडल ( HMM ) का व्यापक रुप से उपयोग किया जाता हैं भाषा माडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज वर्गीकरण या सांख्यिकीय मशीन अनुवाद मे किया जाता हैं।
मानव आवाज को पहचानने के लिए मशीन ( कम्प्यूटर ) के लिए इसे संभव बनाया जाय । उदाहरण के लिए ध्वनि के तरंगो को डिजिटलीकरण और पंजीकरण करके <yes><no> माइक्रोफोन से आने वाली आवाज की तरंग के साथ कि जाय तो यह एक दूसरे से दोनों मेल खाते हैं। तो कम्प्यूटर को संचालित करने के लिए निर्देश ध्वनि के द्वारा दिया जाता हैं
छुपा हुआ मार्कोव माॅडल --
ये सांख्यिकीय माॅडल हैं जो प्रतीकों या मात्राओं का अनुक्रम आउटपुट करते हैं, आधुनिक सामान्य उद्देश्य भाषण मान्यता प्रणाली छिपे हुए मार्कोव माॅडल पर आधारित है,
HMM का उपयोग भाषण मान्यता मे किया जाता हैं क्योंकि एक भाषण संकेत को टुकङो के अनुसार स्थिर सिग्नल या शार्ट - टाइम स्थिर सिग्नल के रूप में देखा जा सकता है, थोङे समय के पैमाने पर भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता हैं भाषण को कई स्टोकास्टिक उद्देश्यों के लिए मार्कोव माॅडल के रूप में माना जा सकता है, मार्कोव माॅडल प्रत्येक राज्य में एक साख्यिकी वितरण होता हैं जो विकर्ण काॅवर्सियन गाॅसियन का मिश्रण होता है, जो प्रत्येक मनाए गए, वेक्टर के लिए संभावना प्रदान करेगा।
Comments
Post a Comment