ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟



اس آرٹیکل میں ہم AWS EMR سروس کی کھوج کریں گے اور اس عمل میں ہم سیکھیں گے کہ ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟

تخلیق کرنے کا طریقہ سے متعلق اس مضمون میں ایمیزون EMR کے ساتھ کلسٹر ہم دیکھیں گے کہ ہڈوپ اور بگ ڈیٹا ایپلی کیشنز کو آسانی سے چلائیں اور اسکیل کریں۔ اس مضمون میں مندرجہ ذیل نکات کا احاطہ کیا جائے گا ،

اس کے ساتھ آگے بڑھ رہے ہو ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟





ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟

جب ہم گوگل یا یاہو میں کسی چیز کو تلاش کرتے ہیں تو ، ہمیں سیکنڈ کے ایک حصے میں جواب مل جاتا ہے۔ یہ کیسے ممکن ہے کہ گوگل ، یاہو اور دوسرے سرچ انجن نتائج کو اتنے تیز رفتار سے بڑھتے ہوئے ویب سے واپس کردیں؟ سرچ انجن انٹرنیٹ کے ذریعے رینگتے ہیں ، ویب صفحات کو ڈاؤن لوڈ کرتے ہیں اور جیسا کہ ذیل میں دکھایا گیا ہے ایک فہرست بنائیں۔ ہم سے کسی بھی سوال کے ل they ، وہ انڈیکس کا استعمال کرتے ہوئے یہ جاننے کے ل all کہ وہ تمام ویب صفحات کیا ہیں جن پر ہم متن ڈھونڈ رہے تھے۔ دائیں طرف نیچے دیئے گئے انڈیکس کو دیکھ کر ، ہم واضح طور پر جان سکتے ہیں کہ ہڈوپ ویب صفحہ 1 ، 2 اور 3 ہے۔

تصویری۔ ایمیزون EMR - ایڈورکا کے ساتھ ہڈوپ کلسٹر کیسے بنائیںپھر پیج رینکنگ الگورتھم استعمال کیا جاتا ہے جس میں اس بات پر مبنی ہے کہ صفحات کس طرح مربوط ہیں یہ معلوم کرنے کے لئے کہ اوپر کون سا صفحہ دکھائے گا اور کون سا نیچے۔ مندرجہ ذیل منظرنامے میں W1 'سب سے زیادہ مقبول' ہے کیوں کہ ہر کوئی اس سے جوڑ رہا ہے اور W4 'کم سے کم مقبول' ہے کیوں کہ کوئی بھی اس سے لنک نہیں کررہا ہے۔ لہذا ، تلاش کے نتائج میں W1 سب سے اوپر اور W4 نیچے دکھائے گئے ہیں۔



ویب صفحات کے دھماکے کے ساتھ ، ان سرچ انجنوں کو انڈیکس بنانے اور پیج رینکنگ کے حساب کتاب کرنے کے ل challenges چیلنجز مل رہے تھے۔ یہ وہ مقام ہے جہاں ہیدوپ کی پیدائش یاہو میں ہوئی تھی اور بعد میں ASF (اپاچی سافٹ ویئر فاؤنڈیشن) کے تحت FOSS (مفت اور اوپن سورس سافٹ ویئر) بن گئی۔ ایک بار ASF کے تحت بہت ساری کمپنیوں نے ہڈوپ میں دلچسپی لینا شروع کردی اور اسے بہتر بنانے میں اپنا تعاون کرنا شروع کردیا۔ بگو ڈیٹا انقلاب شروع کرنے والا ہڈوپ ہی تھا ، لیکن ہارڈوپ میں حدود اور خلیج کو دور کرنے کے ل other بہت سارے دوسرے سافٹ ویر جیسے اسپارک ، ہائیو ، پگ ، اسکوپ ، زوکیپر ، ایچ بیس ، کیسینڈرا ، فلایم نے تیار کرنا شروع کیا۔

ہڈوپ کو استعمال کرنے والے ویب سرچ انجن پہلے تھے ، لیکن بعد میں زیادہ سے زیادہ ڈیٹا تیار ہوتے ہی استعمال کے بہت سارے معاملات تیار ہونا شروع ہوگئے۔ آئیے ایک ای کامرس ایپلی کیشن کی مثال لیتے ہیں جو استعمال کنندہ کو کتابوں کی سفارش کے لئے استعمال کیا جاتا ہے۔ مندرجہ ذیل آریگرام کے مطابق ، صارف 1 نے book1 ، book2 اور book3 خریدا ، صارف 2 نے کچھ کتابیں اور اسی طرح خریدی۔ قریب سے دیکھنے پر ، ہم مشاہدہ کرسکتے ہیں کہ صارف 1 اور صارف 2 کا ذائقہ اسی طرح کا ہے جیسے انہوں نے book1 اور book2 خریدا ہے۔ لہذا ، book3 کی تجویز صارف 2 کے لئے اور Book4 کو صارف 1 کی سفارش کی جاسکتی ہے۔ اس کو مشینری لرننگ الگورتھم کی ایک قسم کو کولیوریٹو فلٹرنگ کہتے ہیں۔ ہم نیچے آریھ پلٹائیں اور اسی طرح کی کتابیں حاصل کرسکتے ہیں۔

مذکورہ بالا معاملے میں ہم نے انڈیکس ، پیج رینک اور صارف کو سفارش کی ہے ، اعداد و شمار کا سائز چھوٹا تھا اور اس ل we ہم اعداد و شمار کو تصور کرنے میں کامیاب ہوگئے اور اس سے کچھ نتائج اخذ کرسکے۔ جیسے جیسے ڈیٹا کا سائز دن بدن بڑا ہوتا جارہا ہے اور قابو سے باہر ہوتا جارہا ہے ، اسی جگہ سے ہڈوپ جیسے بگ ڈیٹا ٹول تصویر میں آتے ہیں۔



ہڈوپ بہت ساری پریشانیوں کو حل کرتا ہے ، لیکن ہڈوپ اور دوسرے بگ ڈیٹا سافٹ ویئر کی تنصیب کرنا کبھی بھی آسان کام نہیں تھا۔ موافقت پذیر کرنے کے لئے تشکیلاتی پیرامیٹرز کی ایک بہت کچھ ہے ، جیسے کام کرنے کے لئے انضمام ، تنصیب اور ترتیب کے امور۔ یہ وہ جگہ ہے جہاں کلوڈیرہ جیسی کمپنیاں ، اور ڈیٹا بکس مدد کرتے ہیں۔ وہ بگ ڈیٹا سافٹ ویئر انسٹال کرنا آسان بناتے ہیں اور تجارتی مدد فراہم کرتے ہیں ، مثال کے طور پر یہ کہتے چلیں کہ پیداوار میں کچھ ہوتا ہے۔ ایمیزون EMR (لچکدار میپریڈوسی) ہڈوپ وغیرہ کو استعمال کرنے میں آسانی سے بہت آسان ہے۔ لچکدار نقشہ کا نام تھوڑا سا غلط نام کی ہے کیوں کہ EMR دوسرے تقسیم شدہ کمپیوٹنگ ماڈلز جیسے بھی لچکدار ڈسٹری بیوٹڈ ڈیٹاسیٹس کی حمایت کرتا ہے نہ صرف میپریڈس۔

اس ٹیوٹوریل میں ، ہم دریافت کریں گے کہ اے ڈبلیو ایس کلاؤڈ پر EMR کلسٹر کیسے ترتیب دیا جائے اور آئندہ ٹیوٹوریل میں ، ہم اس کے اوپر اسپارک ، Hive اور دیگر پروگراموں کو چلانے کا طریقہ دریافت کریں گے۔

اس کے ساتھ آگے بڑھ رہے ہو ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟

ڈیمو: AWS میں EMR کلسٹر تشکیل دینا

مرحلہ نمبر 1: EMR مینجمنٹ کنسول پر جائیں اور 'کلسٹر بنائیں' پر کلک کریں۔ کنسول میں ، کے لئے میٹا ڈیٹا ختم کلسٹر دو مہینوں کے لئے بھی مفت میں بچایا جاتا ہے۔ اس کے ذریعہ ختم ہونے والا کلسٹر کلون اور دوبارہ تشکیل دیا جاسکتا ہے۔

مرحلہ 2 : فوری آپشن اسکرین سے ، کلسٹر کے بارے میں مزید تفصیلات کی وضاحت کرنے کے لئے 'جدید ترین اختیارات پر جائیں' پر کلک کریں۔

مرحلہ 3: ایڈوانس آپشنز ٹیب میں ، ہم EMR کلسٹر پر انسٹال کرنے کے لئے مختلف سوفٹویئر کا انتخاب کرسکتے ہیں۔ ایس کیو ایل انٹرفیس کے لئے ، چھتے کا انتخاب کیا جاسکتا ہے۔ ڈیٹا فلو لینگوئج انٹرفیس کے لئے ، سور کا انتخاب کیا جاسکتا ہے۔ تقسیم شدہ درخواست کے ربط کے لئے زوکیپر کو منتخب کیا جاسکتا ہے وغیرہ۔ یہ ٹیب ہمیں اقدامات شامل کرنے کی بھی اجازت دیتا ہے ، جو ایک اختیاری کام ہے۔ مرحلے میپریڈوسیس ، پگ ، چھتے وغیرہ کا استعمال کرتے ہوئے ڈیٹا پراسیسنگ کی بڑی نوکیاں ہیں۔ انہیں اس ٹیب میں شامل کیا جاسکتا ہے یا بعد میں کلسٹر بننے کے بعد۔ EMR کلسٹر کے لئے درکار ہارڈ ویئر کو منتخب کرنے کے لئے 'اگلا' پر کلک کریں۔

مرحلہ 4: ہڈوپ ماسٹر ورکر فن تعمیر کی پیروی کرتا ہے جہاں ماسٹر تمام تر ہم آہنگی جیسے کام کو شیڈول کرنے اور تفویض کرنے اور ان کی پیشرفت کی جانچ پڑتال کرتا ہے ، جبکہ کارکن ڈیٹا کو پروسس کرنے اور اسٹور کرنے کا اصل کام کرتے ہیں۔ ایک ماسٹر سنگل پوائنٹ آف ناکامی (ایس پی او ایف) ہے۔ ایمیزون EMR اعلی دستیابی (HA) کے لئے ملٹی ماسٹر کی حمایت کرتا ہے۔ پچھلا مرحلہ EMR میں ملٹی ماسٹر کلسٹر ترتیب دینے کی اجازت دیتا ہے۔

EMR دو قسم کے نوڈس ، کور اور ٹاسک کی اجازت دیتا ہے۔ کور نوڈ کو ڈیٹا پروسیسنگ اور اسٹور کرنے دونوں کے لئے استعمال کیا جاتا ہے ، ٹاسک نوڈ کو صرف ڈیٹا پر کارروائی کرنے کے لئے استعمال کیا جاتا ہے۔ اس ٹیوٹوریل کے ل we ، ہم صرف ایک کور اور ٹاسک نوڈس کا انتخاب کرسکتے ہیں کیونکہ اس میں ہمارے لئے کم لاگت آتی ہے۔ اس کے علاوہ ، منتخب کریں اسپاٹ مثالوں ختم مطالبے پر چونکہ اسپاٹ کی مثالیں سستی ہیں۔ اسپاٹ مثال کے ساتھ کیچ یہ ہے کہ وہ AWS کے ذریعہ خود بخود a کے ذریعہ ختم ہوسکتے ہیں دو منٹ کا نوٹس . یہ عملی طور پر اور کچھ اصل منظرناموں میں بھی ٹھیک ہے۔ اسپاٹ مثال کے طور پر خود بخود ختم ہوجاتے ہیں کیونکہ ان کی دوسری مثالوں کی کم ترجیح ہوتی ہے۔ 'اگلا' پر کلک کریں۔

مرحلہ 5: کلسٹر کا نام بتائیں۔ اور 'اگلا' پر کلک کریں۔ نوٹ کریں کہ 'ٹرمینیشن پروٹیکشن' کو بطور ڈیفالٹ آن کیا جاتا ہے ، اس سے یہ یقینی بنتا ہے کہ کلسٹر کو ختم کرتے ہوئے چند قدموں کا تعارف کر کے اتفاقی طور پر EMR کلسٹر کو حذف نہیں کیا گیا ہے۔

مرحلہ 6: ٹیب میں ، EMR کلسٹر کے لئے مختلف حفاظتی اختیارات بیان کیے گئے ہیں۔ EC2 مثال میں لاگ ان کرنے کے لئے کی پیئر کو منتخب کرنے کی ضرورت ہے۔ EMR خود بخود مناسب کردار اور حفاظتی گروپ تشکیل دے گا اور انہیں ماسٹر اور ورکر EC2 نوڈس سے منسلک کرے گا۔ 'کلسٹر بنائیں' پر کلک کریں۔

کلسٹر کی تخلیق میں چند منٹ لگتے ہیں کیونکہ EC2 مثالوں کو خریدنا ہوگا اور مختلف بگ ڈیٹا سافٹ ویرز کو انسٹال اور تشکیل دینا ہوگا۔ شروع میں کلسٹر کا درجہ 'شروع' حالت میں ہوگا اور 'منتظر' حالت میں چلا جائے گا۔ 'منتظر' حالت میں EMR کلسٹر صرف یہ انتظار کر رہا ہے کہ بگ ڈیٹا پراسیسنگ کی مختلف نوکریوں جیسے ایم آر ، اسپارک ، Hive وغیرہ پیش کریں۔

نیز ، ای سی 2 منیجمنٹ کنسول سے نوٹس کریں اور نوٹ کریں کہ ماسٹر اور ورکر ای سی 2 مثال جاری حالت میں ہونی چاہئے۔ یہ اسپاٹ مثال ہیں جو EMR کلسٹر تخلیق کے حصے کے طور پر تشکیل دی گئیں ہیں۔ EMR مینجمنٹ کنسول میں بھی ہارڈویئر ٹیب سے اسی EC2 کا مشاہدہ کیا جاسکتا ہے۔ نوٹ کریں کہ ہارڈ ویئر کے ٹیب میں اسپاٹ EC2 مثال کے لئے قیمت 0.032 $ / گھنٹہ بتائی گئی ہے۔ اسپاٹ مثالوں کی قیمت وقت کے ساتھ بدلتی رہتی ہے اور آن ڈیمانڈ ای سی 2 قیمتوں کے مقابلہ میں بہت کم ہے۔

مرحلہ 7: اب جب کہ EMR کلسٹر کو کامیابی کے ساتھ شامل کیا گیا ہے ، لہذا اقدامات یا بگ ڈیٹا پروسیسنگ نوکریاں شامل کی جاسکتی ہیں۔ اقدامات کے ٹیب پر جائیں اور 'اڈ قدم' پر کلک کریں اور مرحلہ کی قسم (ایم آر ، چھتے ، چنگاری وغیرہ) کو منتخب کریں۔ ہم آئندہ ٹیوٹوریل میں بھی اس کی تلاش کریں گے۔ ابھی کے لئے ، منسوخ کریں پر کلک کریں۔

مرحلہ 8: اب جب ہم نے EMR کو شروع کرنے کا طریقہ دیکھا ہے ، تو اس کو روکنے کا طریقہ دیکھتے ہیں۔

مرحلہ 8.1: ٹرمینیٹ پر کلک کریں۔

مرحلہ 8.2: جیسا کہ پچھلے مراحل میں بتایا گیا ہے ، EMR کلسٹر کے لئے 'ٹرمینیشن پروٹیکشن' جاری ہے اور ٹرمینیٹ بٹن کو غیر فعال کردیا گیا ہے۔ تبدیلی پر کلک کریں۔

مرحلہ 8.3: 'آف' ریڈیو بٹن کو منتخب کریں اور ٹک مارک پر کلک کریں۔ اب ٹرمینیٹ بٹن فعال ہونا چاہئے۔ یہ اضافی اقدام ہے جو EMR نے متعارف کرایا ہے ، صرف اس بات کو یقینی بنانے کے لئے کہ ہم حادثاتی طور پر EMR کلسٹر کو حذف نہیں کرتے ہیں۔

نوٹ کریں کہ EMR کلسٹر ختم ہونے کی حیثیت میں ہوگا اور EC2s کو ختم کردیا جائے گا۔ آخر ، EMR کلسٹر کو اختتامی حیثیت میں منتقل کردیا جائے گا ، یہاں سے AWS کے ساتھ ہماری بلنگ رک جاتی ہے۔ یہ یقینی بنائیں کہ کلسٹر کو ختم کیا جائے ، تاکہ اضافی AWS اخراجات نہ ہوں۔

نتیجہ اخذ کرنا

اس ٹیوٹوریل میں ہم نے دیکھا ہے کہ EMR کلسٹر کو ویب کنسول (براؤزر) سے چند منٹ میں کیسے شروع کیا جائے ، اسی کو استعمال کرکے خودکار بنایا جاسکتا ہے ، AWS SDK یا استعمال کرکے AWS کلاؤڈ فارمیشن . جیسا کہ دیکھا ہے کہ ایک EMR کلسٹر قائم کیا جاسکتا ہے کچھ منٹ کی بات ہے اور بگ ڈیٹا پروسیسنگ فوری طور پر شروع کی جاسکتی ہے ، ایک بار جب پروسیسنگ ہوجائے تو آؤٹ پٹ کو محفوظ کیا جاسکتا ہے۔ ایس 3 یا ڈائنوموڈبی اور اس طرح بلسٹر کو روکنے کے لئے کلسٹر شٹ ڈاؤن۔ اس قیمتوں کا تعین کرنے والے ماڈل اور استعمال میں آسانی کی وجہ سے ، EMR ان لوگوں کے ساتھ ایک بہت بڑا نقصان ہے جو بگ ڈیٹا پروسیسنگ کر رہے ہیں۔ بھاری تعداد میں سرور خریدنے ، بگ ڈیٹا سافٹ ویئر کے لائسنس لینے اور ان کو برقرار رکھنے کی ضرورت نہیں ہے۔

پی ایچ پی میں گونج کیا ہے؟

تو یہ لوگ ہیں ، یہ ہمیں اس مضمون کے آخر تک پہنچا ہے کہ ایمیزون EMR کے ساتھ ہڈوپ کلسٹر کیسے بنائیں؟اگر آپ اس مضمون میں مہارت حاصل کرنا چاہتے ہیں تو ، ایڈوریکا نے ایک ایسا نصاب تیار کیا ہے جس میں قطعی طور پر احاطہ کیا گیا ہے ، آپ کو سولیشن آرکیٹیکٹ امتحان کو توڑنے کی کیا ضرورت ہوگی! آپ کورس کی تفصیلات پر ایک نظر ڈال سکتے ہیں تربیت.

اس بلاگ سے متعلق کوئی سوالات ہونے کی صورت میں ، براہ کرم ذیل میں تبصرے کے سیکشن میں بلا جھجھک سوال کریں اور ہم آپ کو جلد از جلد جواب دینے میں خوشی محسوس کریں گے۔