نقشہ کی طرف شمولیت بمقابلہ. شامل ہوں



اس پوسٹ میں ہڈوپ میپ سائیڈ میں شامل ہونے کے بارے میں تبادلہ خیال کیا گیا ہے۔ شامل ہوں۔ یہ بھی سیکھیں کہ نقشہ کو کیا کم کرنا ہے ، جدول میں شامل ہونا ، ضمنی طور پر شامل ہونا ، چھتے میں میپ سائیڈ جوائن آپریشن کے فوائد

اس بلاگ میں ، ہم اس کے بارے میں تبادلہ خیال کریں گے نقشہ کی طرف میں شامل اور میں شامل ہونے کے معمول سے زیادہ اس کے فوائد چھتے .یہ ایک اہم تصور ہے جسے آپ کو عملی جامہ پہنانے کے ل learn سیکھنا ہوگا .لیکن اس کے بارے میں جاننے سے پہلے ، ہمیں پہلے اس کے تصور کو سمجھنا چاہئے ‘شمولیت’ اور جب ہم داخلہ انجام دیتے ہیں تو داخلی طور پر کیا ہوتا ہے چھتے .

شامل ہوں ایک ایسی شق ہے جو دو جدولوں (یا ڈیٹا سیٹس) کے ریکارڈ کو یکجا کرتی ہے۔
فرض کریں کہ ہمارے پاس دو جدول A اور B موجود ہیں جب ہم ان پر جوائن آپریشن کرتے ہیں تو ، وہ ریکارڈ واپس کردے گا جو تمام کالم o f A اور B کے امتزاج ہیں۔





اب ہم ایک مثال کے ساتھ عام شمولیت کی فعالیت کو سمجھیں۔

جب بھی ، ہم شمولیت کے عمل کا اطلاق کرتے ہیں ، نوکری کو ایک نقشہ کم کرنے کے کام میں تفویض کیا جائے گا جس میں دو مراحل شامل ہیں ‘نقشہ اسٹیج ’اور ایک‘ مرحلے کو کم کریں ’’۔ میپ اسٹیج کے دوران میپر کا کام کرنا ہے 'پڑھیں' شامل ہونے والی میزیں اور سے ڈیٹا 'واپسی' 'شامل کی کلید' اور 'قدر میں شمولیت' انٹرمیڈیٹ فائل میں جوڑی بنائیں۔ مزید برآں ، شفل مرحلے میں ، اس انٹرمیڈیٹ فائل کو پھر ترتیب دیا اور ملایا جاتا ہے۔ کم کرنے کے مرحلے کے دوران ریڈوسر کا کام یہ ہے کہ ترتیب شدہ نتائج کو ان پٹ کے طور پر لینا اور اس میں شامل ہونے کا کام مکمل کرنا ہے۔



  • میپ سائیڈ جوائن شامل ہونے کی طرح ہے لیکن تمام کام اکیلے میپر ہی انجام دے گا۔

  • کام کو بہتر بنانے کے ل Map نقشہ کی طرف شمولیت زیادہ تر چھوٹی میزوں کے ل suitable موزوں ہوگی۔



نقشہ سائیڈ میں شامل ہونے سے کس طرح کام کو بہتر بنایا جائے گا؟

فرض کریں کہ ہمارے پاس دو میزیں ہیں جن میں سے ایک چھوٹی سی میز ہے۔ جب ہم کسی نقشہ کو کم کرنے کا کام پیش کرتے ہیں تو ، اصل میں شامل ہونے سے قبل نقشہ گھٹانے کا مقامی ٹاسک بنایا جائے گا جو ایچ ڈی ایف ایس سے چھوٹے ٹیبل کا ڈیٹا پڑھے گا اور اسے میموری میں ہیش ٹیبل میں اسٹور کرے گا۔ پڑھنے کے بعد ، یہ میموری میں ہیش ٹیبل کو ہیش ٹیبل فائل میں سیریلائز کرتا ہے۔

اگلے مرحلے میں ، جب اصل میں شامل ہونے والا میپ ریڈیوس ٹاسک چل رہا ہے ، تو یہ ہیش ٹیبل فائل میں موجود ڈیٹا کو ہڈوپ تقسیم شدہ کیشے میں منتقل کرتا ہے ، جو ان فائلوں کو ہر میپر کی لوکل ڈسک میں آباد کرتا ہے۔ لہذا تمام نقشے اس مستقل ہیش ٹیبل فائل کو دوبارہ میموری میں لوڈ کرسکتے ہیں اور پہلے کی طرح شامل ہونے کا کام کرسکتے ہیں۔ مطلوبہ نقشہ میں شامل ہونے کا عمل درآمد نیچے کی شکل میں دکھایا گیا ہے۔ اصلاح کے بعد ، چھوٹے ٹیبل کو صرف ایک بار پڑھنے کی ضرورت ہے۔ نیز اگر ایک ہی مشین پر متعدد نقشے چل رہے ہیں تو ، تقسیم شدہ کیشے کو ہیش ٹیبل فائل کی ایک کاپی کو اس مشین میں دھکیلنا ہوگا۔

نقشہ سائیڈ میں شامل ہونے کے استعمال کے فوائد:

  • نقشہ سائیڈ جوائن اس لاگت کو کم سے کم کرنے میں مدد کرتا ہے جو قیمت میں چھانٹ رہا ہے اور اس میں ضم ہوجاتا ہے شفل کرنا اور کم مراحل
  • میپ سائیڈ جوائنٹ کام کو ختم کرنے کا وقت کم کرکے کام کی کارکردگی کو بہتر بنانے میں بھی مدد کرتا ہے۔

نقشہ سائیڈ میں شامل ہونے کے نقصانات:

  • میپ سائیڈ جوائننگ صرف اس صورت میں کافی ہے جب آپ جن ٹیبل پر میپ سائیڈ جوائن آپریشن کرتے ہیں ان میں سے ایک میموری میں فٹ ہونے کے لئے کافی چھوٹا ہے۔ لہذا ان میزوں پر میپ سائیڈ جوائن کرنا مناسب نہیں ہے جو ان دونوں میں بہت بڑا اعداد و شمار رکھتے ہیں۔

نقشہ کو کم کرنے کی آسان مثال شامل ہوتی ہے۔

آئیے دو میزیں بنائیں:

  • ایمپ : کسی ملازم کی تفصیلات پر مشتمل ہوتا ہے جیسے ملازم کا نام ، ملازم شناخت اور محکمہ جس سے وہ تعلق رکھتا ہے۔

  • محکمہ: اس میں تفصیلات شامل ہیں جیسے محکمہ کا نام ، ڈیپارٹمنٹ کی شناخت اور اسی طرح کا۔

مندرجہ ذیل تصویر میں دکھائے گئے جیسا کہ دو ان پٹ فائلیں بنائیں ، اس طرح کے ٹیبلز میں ڈیٹا کو لوڈ کرنے کے ل.۔

ملازم.txt

اعشاریہ میں اعشاریہ کو بائنری میں تبدیل کریں

dept.txt

اب ، ڈیٹا کو ٹیبل میں لوڈ کریں۔

آئیے انجام دیں نقشہ سائیڈ شامل ہوں محکموں کی فہرست نکالنے کے لئے دو میزوں پر جس میں ہر ملازم کام کررہا ہے۔

یہاں ، دوسرا ٹیبل ڈیپارٹمنٹ ایک چھوٹی سی میز ہے۔ یاد رکھیں ، ہمیشہ محکمہ کی تعداد کسی تنظیم میں ملازمین کی تعداد سے کم ہوگی۔

ازگر کے لئے anaconda کا استعمال کیسے کریں

اب چلیں ، معمول کی کمی کو کم کرنے کی مدد سے وہی کام انجام دیں۔

دونوں شامل ہونے پر عمل کرتے وقت ، آپ کو دونوں اختلافات مل سکتے ہیں:

  • عام شمولیت میں آنے والے وقت کے مقابلے میں نقشہ کم کرنے والی ملازمت نے کم وقت میں کام مکمل کرلیا ہے۔

  • نقشہ کم کرنے والی شمولیت نے بغیر کسی ریڈوسر کی مدد کے اپنا کام مکمل کرلیا ہے جبکہ معمول کے جوائن نے ایک ریڈوسر کی مدد سے اس کام کو انجام دیا ہے۔

لہذا ، نقشہ کی طرف شمولیت کیا آپ کا بہترین شرط ہے جب ایک میز میں سے ایک چھوٹی سی مدت میں کام کو مکمل کرنے کے لئے میموری میں فٹ ہونے کے لئے کافی چھوٹا ہو۔

میں اصل وقت کا ماحول ، آپ کے پاس ڈیٹا سیٹ ہوں گے جس میں بڑی مقدار میں کوائف ہوں گے۔ لہذا تجزیہ کرنا اور ڈیٹا کی بازیافت میں وقت ضائع ہوگا اگر ڈیٹا سیٹوں میں سے ایک چھوٹا سائز کا ہو۔ اس طرح کے معاملات میں نقشہ کی طرف شامل ہونے کام کم وقت میں مکمل کرنے میں مدد ملے گی۔

ہڈوپ کو ماسٹر کرنے کے لئے اس سے بہتر وقت کبھی نہیں ملا! ایڈوریکا کے ذریعہ خصوصی طور پر تیار کردہ بگ ڈیٹا اور ہڈوپ کورس کے ساتھ اب شروع کریں۔

حوالہ جات:
https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

متعلقہ اشاعت:

ڈیٹا ٹریننگ کے 7 طریقے آپ کی تنظیم کو تبدیل کرسکتے ہیں