تقریر دنیا بھر میں ابلاغ کا سب سے عام ذریعہ ہے۔ دنیا کی بیشتر آبادی ایک دوسرے سے بات چیت کے لئے تقریر پر انحصار کرتی ہے۔ فرض کریں کہ ہم ایک ماڈل تشکیل دے رہے ہیں اور تحریری نقطہ نظر کے بجائے ہم چاہتے ہیں کہ ہمارا نظام تقریر کا جواب دے ، یہ کافی مشکل ہو جاتا ہے اور اس پر کارروائی کرنے کے لئے بہت زیادہ ڈیٹا کی ضرورت ہوتی ہے۔ تقریر کی شناخت کا ایک نظام تقریر کا متن میں ترجمہ کرکے اس رکاوٹ کو دور کرتا ہے۔ اس بلاگ میں ، ہم تقریر کی پہچان سے گزریں گے ازگر میں ماڈیول . یہاں اسی کی فہرست ہے۔
- تقریر کی شناخت کیسے کام کرتی ہے؟
- ازگر میں تقریر کی شناخت انسٹال کرنے کا طریقہ
- مائکروفونز سے ان پٹ لینا
- ازگر میں پییوڈیو کو انسٹال کرنے کا طریقہ؟
- کیس استعمال کریں
تقریر کی شناخت کیسے کام کرتی ہے؟
تقریر کی شناخت کا نظام بنیادی طور پر بولے گئے الفاظ کا متن میں ترجمہ کرتا ہے۔ تقریر کی شناخت کے نظام کی حقیقی زندگی کی متعدد مثالیں ہیں۔ مثال کے طور پر سری ، جو تقریر کو ان پٹ کے بطور لیتا ہے اور اسے متن میں ترجمہ کرتا ہے۔
تقریر کی شناخت کے نظام کو استعمال کرنے کا فائدہ یہ ہے کہ یہ خواندگی کی راہ میں حائل رکاوٹ کو دور کرتا ہے۔ تقریر کی پہچان کرنے والا ماڈل پڑھے لکھے اور ناخواندہ دونوں سامعین کی خدمت کرسکتا ہے ، کیوں کہ اس میں بولنے والے الفاظ پر توجہ دی جاتی ہے۔
ہم تقریر کی شناخت کے نظام کا استعمال کرتے ہوئے دنیا بھر کی تمام خطرے سے دوچار زبانوں کی انوینٹری بھی بنا سکتے ہیں۔ اگرچہ یہ بہت ہی پیچیدہ اور پیچیدہ نہیں لگتا ہے ، لیکن تقریر کی شناخت کے نظام کو بنانے میں بہت سارے چیلنجوں کا سامنا کرنا پڑتا ہے۔
ایک تقریر کی پہچان سے درپیش چیلنجز سسٹم
تقریر کی شناخت کا نظام بنانا مشکل ہوجاتا ہے کیونکہ جب تقریر کی بات کی جاتی ہے تو ہمارے پاس متغیرات کے بہت سارے ذرائع ہیں۔
بولنے کا انداز
ہر فرد کی بولنے کا انداز مختلف ہے ، جس میں لہجے بھی شامل ہیں۔ جیسا کہ ہم سب جانتے ہیں ، انگریزی بھی بولنے کے لئے ہمارے پاس مختلف لہجے ہیں۔ جب دنیا کی سب سے عام زبان بولنے کی بات آتی ہے تو یہاں انگریزی ، برطانوی انگریزی اور بہت سارے لہجے ہیں۔ تقریر کی شناخت کے نظام کے ل Pronunciation تلفظ تقریر کا مکمل ترجمہ کرنا بھی مشکل بناتا ہے۔
ماحولیات
ماحولیات بھی نظام میں بہت سارے پس منظر کے شور کو شامل کرتا ہے۔ آڈیٹوریم کے مقابلے میں الگ تھلگ کمرے میں پس منظر کے شور میں بہت زیادہ فرق پڑے گا۔ یہاں تک کہ ایکو نظام میں بھی بہت زیادہ شور کو جنم دے سکتا ہے۔
اسپیکر کی خصوصیات
کسی بوڑھے شخص کی آواز شیر خوار کی طرح نہیں ہوسکتی ہے۔ کسی شخص کی تقریر کی خصوصیات بہت سے عوامل پر منحصر ہوتی ہے جس میں سختی اور وضاحت بھی شامل ہے۔
زبان کی رکاوٹیں
جب ترجمہ کی بات کی جاتی ہے تو کچھ بولی جانے والی باتوں کا کوئی معنی معنی نہیں رکھتا۔
ج میں جڑی ہوئی فہرست کیسے بنائی جائے
ان چیلنجوں پر قابو پانے کے بعد ، تقریر کی شناخت کے کسی بھی نظام کے ل speech تقریر کا متن میں ترجمہ کرنا کافی حد تک قابل حصول ہے۔ اب جب ہم جانتے ہیں کہ تقریر کی پہچان کس طرح کام کرتی ہے ، تو ایک دوسرے پر ایک نظر ڈالتے ہیں جو ازگر میں تقریر کی پہچان کے لئے دستیاب ہیں۔
ازگر میں تقریر کی شناخت کے لئے دستیاب پیکیجز
apiai
اسپیچ ریکنیکیشن
گوگل_اسپیچ_کلائڈ
اسمبلیائی
جیب فانکس
واٹسن_ڈیولپر_کلائڈ
سفید
ہم اس بلاگ میں اسپیچ ریکونیکیشن پیکیج کی تفصیلات دیکھیں گے ، یہ بھی سمجھنے کے لئے میموری لین کو ایک نظر ڈالتے ہیں کہ گذشتہ برسوں میں تقریر کی شناخت کے نظام کس طرح تیار ہوئے ہیں۔
تقریر کی پہچان کا پہلا پروٹو ٹائپ در حقیقت ایک کھلونا تھا ، جس کا نام لیا گیا تھا ریڈیو ریکس جو 1920 کے قریب تھا۔ اس میں کتے کے گھر میں ایک کتا بیٹھا ہوا تھا جو جیسے ہی کوئی شخص ریکس کا لفظ بولتا تھا باہر نکل جاتا تھا۔
ماڈل میں صرف ایک مسئلہ یہ تھا کہ موسم بہار کو ایک برقی مقناطیس سے جوڑا گیا تھا جو 500hz کے ارد گرد توانائی کے لئے حساس تھا۔ خالصتا a فریکوئینسی کا پتہ لگانے والا ہونے کی وجہ سے ، اسے دور سے تقریر کی شناخت کے ماڈل کے طور پر کہا جاسکتا ہے۔
1962 میں ، IBM ایک کے ساتھ آیا جوتے باکس وہ ماڈل جو الگ تھلگ الفاظ کو پہچاننے کے قابل تھا اور اس کے ساتھ ساتھ کچھ ریاضی کے عمل بھی انجام دیتا ہے۔
پھر آیا ہارپی سی ایم یو سے ، جو 1000 الفاظ کی الفاظ سے مربوط تقریر کو پہچاننے کے قابل تھا۔ سن 1980 کی دہائی کے آس پاس لوگوں نے شماریاتی ماڈلز کا استعمال شروع کیا اور سب سے زیادہ استعمال شدہ مشین سیکھنے کی نمونوں میں سے ایک پوشیدہ مارکوف ماڈل تھا۔
گہرے اعصابی نیٹ ورک کے تعارف کے بعد ، تقریر کی زیادہ تر شناخت کے ماڈل زیادہ تر عصبی نیٹ ورکس پر کام کرتے ہیں۔ اعصابی نیٹ ورکس کے ساتھ امکانات ناقابل تصور ہیں ، الفاظ 10 کلم الفاظ اور زیادہ بڑھ سکتے ہیں۔
ازگر میں اسپیچ ریکنیکیشن انسٹال کرنے کا طریقہ؟
اسپیچ ریکنیکیشن پیکج کو انسٹال کرنے کے لئے یہ ازگر ہے ، ٹرمینل میں درج ذیل کمانڈ چلائیں اور یہ آپ کے سسٹم پر انسٹال ہوجائے گا۔
اس کے لئے ایک اور نقطہ نظر ، اگر آپ استعمال کررہے ہو تو پروجیکٹ ترجمان سے پیکیج کو شامل کیا جاسکتا ہے
پیکیج میں ایک پہچاننے والا کلاس ہے جو بنیادی طور پر جہاں جادو ہوتا ہے۔ یہ بنیادی طور پر ایک کلاس ہے جو تقریر کو پہچاننے کے لئے استعمال ہوتا ہے۔ مندرجہ ذیل سات طریقے ہیں جو مختلف APIs کا استعمال کرتے ہوئے مختلف آڈیو ذرائع کو پڑھ سکتے ہیں۔
- پہچان_بنگ ()
- شناخت_گوگل ()
- پہچانیں_گوگل_کلوڈ ()
- شناخت کریں
- شناخت_بیم ()
- شناخت کریں_
- تسلیم کریں_فنکس ()
اب ، تقریر کی شناخت کے نظام کو آف لائن چلانے کے لئے بھی شناخت_اسفینکس کا استعمال کیا جاسکتا ہے۔ اس کے لئے پاکٹسفنکس کی تنصیب کی ضرورت ہے۔
شناختی کلاس r = sr.Recognizer () کی بطور مسٹر # انسٹینس اسپیچریٹیگریشن درآمد کریں
مائکروفونز سے ان پٹ لینا
مائکروفون کے استعمال کے ل To ، ہمیں پییوڈیو ماڈیول بھی انسٹال کرنا پڑے گا۔ ہم کسی آڈیو فائل جیسے کسی بھی ان پٹ طریقہ کی بجائے مائیکروفون سے ان پٹ تقریر حاصل کرنے کیلئے مائکروفون کلاس استعمال کرتے ہیں۔
زیادہ تر منصوبوں کے ل For ، ہم پہلے سے طے شدہ مائکروفون استعمال کرسکتے ہیں۔ لیکن اگر آپ پہلے سے طے شدہ مائکروفون استعمال نہیں کرنا چاہتے ہیں تو ،آپ مائکروفون کے ناموں کی فہرست کو list_microphone_names طریقہ استعمال کرکے حاصل کرسکتے ہیں۔
مائکروفون سے ان پٹ حاصل کرنے کے ل we ہم سننے کا طریقہ استعمال کرتے ہیں۔
sre r = sr.Recognizer () کے ساتھ sr.Microphone () بطور بطور ذریعہ تقریر کی شناخت درآمد کریں: آڈیو = sr.listten (ماخذ)
ازگر میں پییوڈیو کو انسٹال کرنے کا طریقہ؟
ازگر میں پییوڈیو کو انسٹال کرنے کے لئے ، ٹرمینل میں مندرجہ ذیل کمانڈ چلائیں یا اگر آپ پیچرم استعمال کررہے ہیں تو ترتیبات میں پراجیکٹ ترجمان کی طرف سے پیکیج شامل کریں۔
کیس استعمال کریں
ہم تقریر کو پہچاننے اور درج ذیل پر عملدرآمد کرنے کے لئے ازگر میں تقریری شناخت ماڈیول کا استعمال کرتے ہوئے ایک پروگرام بنائیں گے۔
- تقریر کو متن میں تبدیل کریں
- ویب براؤزر ماڈیول کا استعمال کرتے ہوئے یو آر ایل کھولیں
- یو آر ایل میں تلاش کرنے کے لئے تقریر کی پہچان کا استعمال کرتے ہوئے ایک سوال پاس کریں
مندرجہ بالا مسئلہ بیان کے لئے پروگرام درج ذیل ہے۔
sr کی حیثیت سے Speed_recognition کو درآمد کریں wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () sr.Microphone () کے ساتھ بطور ماخذ: پرنٹ ('[سرچ ایڈیورکا: سرچ یوٹیوب]') پرنٹ کریں ('اب بولیئے') آڈیو = r3.listen (ماخذ) اگر '2 ایوریورکا 'r2.recognize_google (آڈیو) میں: r2 = sr.Recognizer () url =' https://www.edureka.co/ 'sr کے ساتھ . مائکروفون () بطور ماخذ: پرنٹ کریں ('اپنی استفسار تلاش کریں') آڈیو = r2.listen (ماخذ) کوشش کریں: get = r2.recognize_google (آڈیو) پرنٹ (get) wb.get (). کھولیں_نیو (url + get) سوائے سوائے sr.UnعلومValueError: پرنٹ ('غلطی') سوائے sr.RequestError بطور ای: پرنٹ ('ناکام'.فارمٹ (ای)) اگر' ویڈیو 'r1.recognize_google (آڈیو) میں: r1 = sr.Recognizer () url =' https://www.youtube.com/results؟search_query= 'sr.Microphone () کے ساتھ بطور ذریعہ: پرنٹ کریں (' ویڈیو کی تلاش کریں ') آڈیو = r2.listen (ماخذ) کوشش کریں: get = r1.recognize_google (آڈیو) ) پرنٹ (get) wb.get (). کھولیں_نئے (url + get) سوائے sr.UnmittedValueError: پرنٹ ('سمجھ نہیں سکا') سوائے sr.RequestError کے بطور ای: پرنٹ (نتائج حاصل کرنے میں ناکام رہا ۔فارم (e) )
آپ کو آؤٹ پٹ ملے گا جیسے یہ شبیہ میں دکھایا گیا ہے۔ اگر آپ ایورورکا کہتے ہیں تو ، یہ آپ کو وہ استفسار کرنے کا اشارہ کرے گا جو آپ ایورورکا یو آر ایل میں تلاش کرنا چاہتے ہیں جو ہم نے یو آر ایل میں متغیر میں لکھا ہے۔ اگر آپ ازگر کہتے ہیں تو آپ کو مندرجہ ذیل ویب صفحہ کو براؤزر میں کھلا مل جائے گا۔
اس بلاگ میں ، ہم نے اس بات پر تبادلہ خیال کیا ہے کہ ہم تقریر کی شناخت کو کس طرح تقریر شناسی پیکج کا استعمال کرتے ہوئے متن میں متن میں ترجمہ کرنے کے لئے آہر میں تقریر کی پہچان کا استعمال کرسکتے ہیں۔ کے ساتھ تقریر کی پہچان یا آبجیکٹ کو رد کرنا جیسے تصورات کے لئے وقت کی ضرورت بن گیا ہے جو تقریر کی شناخت کے سسٹم میں ناقابل تصور امکانات مہیا کرتے ہیں جہاں ہم ایک سسٹم کی تشکیل کے ل en بے حد تقریر کے اعداد و شمار کی تربیت اور جانچ کرسکتے ہیں۔ گہری اعصابی نیٹ ورکس کے ل your آپ کی مہارت میں مہارت حاصل کر سکے اور اپنی تعلیم کو شروع کریں
کوئی سوالات ہیں؟ تبصروں میں ان کا تذکرہ کریں ، ہم آپ کے پاس واپس جائیں گے۔