ہنگوپ بمقابلہ ہڈوپ: بگ ڈیٹا کا بہترین فریم ورک کونسا ہے؟



یہ بلاگ پوسٹ اپاچی چنگاری بمقابلہ ہڈوپ کے بارے میں بات کرتی ہے۔ یہ آپ کو ایک اندازہ دے گا کہ کون سے مختلف منظر ناموں میں انتخاب کرنے کا صحیح بگ ڈیٹا فریم ورک ہے۔

میں اس اپاچی اسپارک بمقابلہ ہڈوپ بلاگ کو پہلے ہڈوپ اور اسپارک کو متعارف کروا کر شروع کردوں گا تاکہ دونوں فریم ورک کے لئے صحیح سیاق و سباق کو متعین کیا جاسکے۔ اس کے بعد ، آگے بڑھتے ہوئے ہم ان دونوں کی بڑی طاقتوں اور کمزوریوں کا تجزیہ کرنے کے لئے دونوں بگ ڈیٹا فریم ورک کا مختلف پیرامیٹرز پر موازنہ کریں گے۔لیکن ، ہمارے مقابلے کا جو بھی نتیجہ نکلے گا ، آپ کو معلوم ہونا چاہئے کہ چنگاری اور ہڈوپ دونوں ہی اس کے اہم حصے ہیں .

اپاچی سپارک بمقابلہ ہڈوپ: ہڈوپ سے تعارف

ہڈوپ ایک ایسا فریم ورک ہے جو آپ کو پہلے سے بگ ڈیٹا کو ایک تقسیم شدہ ماحول میں اسٹور کرنے کی سہولت دیتا ہے تاکہ آپ اس پر متوازی عمل کرسکیں۔ ہڈوپ میں بنیادی طور پر دو اجزاء ہیں:





ایچ ڈی ایف ایس

ایچ ڈی ایف ایس وسائل کی تجریدی تخلیق کرتا ہے ، مجھے آپ کے لئے آسان بنادیں۔ ورچوئلائزیشن کی طرح ہی ، آپ بگ ڈیٹا کو اسٹور کرنے کے ل HD یکساں یونٹ کے طور پر ایچ ڈی ایف ایس کو منطقی طور پر دیکھ سکتے ہیں ، لیکن درحقیقت آپ اپنے اعداد و شمار کو متعدد نوڈس میں تقسیم فیشن میں اسٹور کر رہے ہیں۔ یہاں ، آپ کے پاس ماسٹر غلام فن تعمیر ہے۔ ایچ ڈی ایف ایس میں ، نامین ایک ماسٹر نوڈ ہے اور ڈیٹانوڈس غلام ہیں۔

نام نام

یہ ماسٹر ڈیمون ہے جو ڈیٹا نڈس (غلام نوڈس) کو برقرار اور منظم کرتا ہے۔ یہ کلسٹر میں محفوظ تمام فائلوں کا میٹا ڈیٹا ریکارڈ کرتا ہے ، جیسے۔ ذخیرہ کردہ بلاکس کا مقام ، فائلوں کا سائز ، اجازتیں ، درجہ بندی ، وغیرہ۔ اس میں ہر اس تبدیلی کا ریکارڈ آتا ہے جو فائل سسٹم میٹا ڈیٹا میں ہوتا ہے۔



مثال کے طور پر ، اگر کسی فائل کو ایچ ڈی ایف ایس میں حذف کردیا گیا ہے ، تو نام نوڈ اسے فوری طور پر ایڈیٹلاگ میں ریکارڈ کرے گا۔ اس کو یقینی بنانے کے ل regularly کہ کلسٹر میں موجود تمام ڈیٹا نوڈس سے دل کی دھڑکن اور بلاک کی رپورٹ موصول ہوتی ہے۔ یہ ایچ ڈی ایف ایس میں موجود تمام بلاکس کا ریکارڈ رکھتا ہے اور یہ بلاکس کس نوڈس میں محفوظ ہیں۔

c ++ تکرار کرنے والی فبونیکی

ڈیٹا نوڈ

یہ غلام ڈیمان ہیں جو ہر غلام مشین پر چلتی ہیں۔ اصل ڈیٹا ڈیٹا نوڈس پر محفوظ ہے۔ وہ مؤکلوں سے درخواستیں پڑھنے اور لکھنے کی خدمت کے ذمہ دار ہیں۔ وہ بلاک بنانے ، بلاکس کو حذف کرنے اور نیامنوڈ کے ذریعہ کیے گئے فیصلوں کی بنیاد پر اسی کی نقل تیار کرنے کے بھی ذمہ دار ہیں۔

ایچ ڈی ایف ایس - اپاچی سپارک بمقابلہ ہڈوپ - ایڈورکایارن

یاران وسائل اور شیڈولنگ کے کام مختص کرکے آپ کی پروسیسنگ کی تمام تر سرگرمیاں انجام دیتا ہے۔ اس کے دو بڑے ڈیمان ہیں ، یعنی۔ ریسورس مینجر اور نوڈ مینجر .



ریسورس مینجر

یہ کلسٹر لیول (ہر ایک کلسٹر کے لئے ایک) جزو ہے اور ماسٹر مشین پر چلتا ہے۔ یہ YARN کے سب سے اوپر چلنے والے وسائل اور نظام الاوقات کا انتظام کرتا ہے۔

نوڈ مینجر

یہ نوڈ لیول جزو ہے (ہر نوڈ پر ایک) اور ہر غلام مشین پر چلتا ہے۔ یہ ہر کنٹینر میں کنٹینرز کا انتظام کرنے اور وسائل کے استعمال کی نگرانی کے لئے ذمہ دار ہے۔ یہ نوڈ کی صحت اور لاگ مینجمنٹ کا بھی ٹریک رکھتا ہے۔ یہ مسلسل تازہ رہنے کے لئے ریسورس مینیجر کے ساتھ مسلسل گفتگو کرتا ہے۔ لہذا ، آپ MapReduce کا استعمال کرکے ایچ ڈی ایف ایس پر متوازی پروسیسنگ انجام دے سکتے ہیں۔

ہڈوپ کے بارے میں مزید جاننے کے ل you ، آپ اس سے گزر سکتے ہیں بلاگ اب ، کہ ہم سب ہڈوپ تعارف کے ساتھ تیار ہیں ، آئیے اسپرارک تعارف کی طرف چلیں۔

اپاچی اسپارک بمقابلہ ہڈوپ: اپاچی چنگاری کا تعارف

اپاچی اسپارک ایک تقسیم شدہ کمپیوٹنگ ماحول میں ریئل ٹائم ڈیٹا اینالیٹکس کا ایک فریم ورک ہے۔ یہ ڈیٹا پروسیسنگ کی رفتار کو بڑھانے کے لئے میموری میں کمپیوٹرز کو انجام دیتا ہے۔ بڑے پیمانے پر ڈیٹا پر کارروائی کرنے میں یہ تیز تر ہے کیوں کہ یہ میموری میں ہونے والی کمپیوٹیشن اور دیگر اصلاحات کو استحصال کرتا ہے۔ لہذا ، اس کے لئے اعلی پروسیسنگ طاقت کی ضرورت ہے۔

لچکدار تقسیم شدہ ڈیٹاسیٹ (آرڈیڈی) اسپارک کا ایک بنیادی ڈیٹا ڈھانچہ ہے۔ یہ اشیاء کا ایک ناقابل تقسیم تقسیم ذخیرہ ہے۔ آر ڈی ڈی میں ہر ڈیٹاسیٹ کو منطقی پارٹیشنوں میں تقسیم کیا گیا ہے ، جس کی کلسٹر کے مختلف نوڈس پر حساب کی جاسکتی ہے۔ آر ڈی ڈی میں کسی بھی قسم کے ازگر ، جاوا ، یا اسکیلہ اشیاء شامل ہو سکتے ہیں ، جن میں صارف کی وضاحت شدہ کلاسز بھی شامل ہیں۔ چنگاری کے اجزاء اسے تیز اور قابل اعتماد بناتے ہیں۔ اپاچی سپارک کے درج ذیل اجزاء ہیں:

  1. کور چنگاری - بڑے پیمانے پر متوازی اور تقسیم شدہ ڈیٹا پروسیسنگ کے لئے اسپارک کور بنیادی انجن ہے۔ مزید برآں ، اضافی لائبریریاں جو بنیادی طور پر تعمیر کی گئیں ہیں وہ اسٹریمنگ ، ایس کیو ایل ، اور مشین سیکھنے کے ل for متنوع ورک بوجھ کی اجازت دیتی ہیں۔ یہ میموری کے نظم و نسق اور غلطی کی بازیابی ، نظام الاوقات ، تقسیم اور نگرانی کے کاموں کے لئے ذمہ دار ہے۔
  2. چنگاری سٹریمنگ - اسپارک اسٹریمنگ اسپارک کا جز ہے جو اصل وقت کے اعداد و شمار پر کارروائی کرنے کے لئے استعمال ہوتا ہے۔ اس طرح ، یہ بنیادی سپارارک API میں ایک کارآمد اضافہ ہے۔ یہ براہ راست اعداد و شمار کے اسٹریمز پر اعلی تھروپوت اور غلطی روادار اسٹریم پروسیسنگ کو قابل بناتا ہے
  3. اسپارک ایس کیو ایل : سپارارک میں ایس کیو ایل ایک نیا ماڈیول ہے جو سپارک کے فنکشنل پروگرامنگ API کے ساتھ رشتہ دارانہ پروسیسنگ کو مربوط کرتا ہے۔ یہ ایس کیو ایل کے ذریعہ یا ہائوی کوئوری لینگویج کے توسط سے ڈیٹا کو طلب کرنے کی حمایت کرتا ہے۔ آپ میں سے ان لوگوں کے لئے جو RDBMS سے واقف ہیں ، آپ کے ابتدائی ٹولز سے اسپارک ایس کیو ایل ایک آسان منتقلی ہوگی جہاں آپ روایتی رشتہ دار ڈیٹا پروسیسنگ کی حدود کو بڑھا سکتے ہیں۔
  4. گراف ایکس : گرافکس گراف اور متوازی حساب کتاب کے لئے اسپارک API ہے۔ اس طرح ، اس نے سپارک آر ڈی ڈی کو ایک لچکدار تقسیم شدہ پراپرٹی گراف کے ساتھ بڑھایا ہے۔ اعلی سطح پر ، گرافیکس نے ریلی لینٹ ڈسٹری بیوٹڈ پراپرٹی گراف متعارف کراتے ہوئے اسپارک آر ڈی ڈی تجرید میں توسیع کردی ہے: ہدایت کردہ ملٹیگراف جس میں ہر ایک کے دہانے اور کنارے کے ساتھ منسلک خصوصیات ہیں۔
  5. ایم ایل لیب (مشین لرننگ): ایم ایل لیب کا مطلب مشین لرننگ لائبریری ہے۔ اسپارک ایم ایللیب اپاچی چنگاری میں مشین لرننگ انجام دینے کے لئے استعمال ہوتا ہے۔

جیسا کہ آپ دیکھ سکتے ہیں ، سپارک اعلی سطحی لائبریریوں سے بھرا ہوا ہے ، جس میں آر ، ایس کیو ایل ، ازگر ، اسکالا ، جاوا وغیرہ کی حمایت شامل ہے۔ یہ معیاری لائبریریاں پیچیدہ ورک فلو میں ہموار انضمام کو بڑھاتی ہیں۔ اس کے علاوہ ، یہ خدمات کے مختلف سیٹوں کو اس کے ساتھ ضم کرنے کی اجازت دیتا ہے جیسے ایم ایل لیب ، گراف ایکس ، ایس کیو ایل + ڈیٹا فریم ، اسٹریمنگ خدمات وغیرہ اپنی صلاحیتوں کو بڑھا سکتے ہیں۔

اپاچی چنگاری کے بارے میں مزید جاننے کے ل you ، آپ اس سے آگے بڑھ سکتے ہیں بلاگ اب اپاچی اسپارک بمقابلہ ہڈوپ کے لئے گراؤنڈ بالکل تیار ہے۔ آئیے آگے بڑھیں اور اپاچی اسپارک کو ان کی طاقتوں کو سمجھنے کے لئے مختلف پیرامیٹرز پر ہڈوپ کے ساتھ موازنہ کریں۔

اپاچی اسپارک بمقابلہ ہڈوپ: موازنہ کرنے کے لئے پیرامیٹرز

کارکردگی

چنگاری تیز ہے کیونکہ اس میں میموری پروسیسنگ ہوتی ہے۔ یہ اعداد و شمار کے ل disk ڈسک کا استعمال بھی کرسکتا ہے جو میموری میں بالکل فٹ نہیں ہوتا ہے۔ اسپارک کی ان میموری پروسیسنگ اصل وقت کے تجزیات کے قریب فراہم کرتی ہے۔ یہ اسپارک کو کریڈٹ کارڈ پروسیسنگ سسٹم ، مشین لرننگ ، سیکیورٹی تجزیات اور انٹرنیٹ آف تھنگ سینسر کے لئے موزوں بنا دیتا ہے۔

ہڈوپ اصل میں سیٹ اپ تھا کہ متعدد ذرائع سے اعداد و شمار کو مستقل طور پر اکٹھا کرنا تھا تاکہ اعداد و شمار کی نوعیت کی فکر نہ کیئے اور تقسیم شدہ ماحول میں اسے ذخیرہ کیا جاسکے۔ میپریڈوچ بیچ پروسیسنگ کا استعمال کرتا ہے۔ ریئل ٹائم پروسیسنگ کے لئے میپریڈوس کبھی نہیں بنایا گیا تھا ، یاران کے پیچھے مرکزی خیال متناسب پروسیسنگ ہے جو تقسیم شدہ ڈیٹاسیٹ سے زیادہ ہے۔

دونوں کا موازنہ کرنے میں مسئلہ یہ ہے کہ وہ مختلف طریقے سے پروسیسنگ انجام دیتے ہیں۔

استعمال میں آسانی

اسپارک اسکالا ، جاوا ، ازگر اور اسپارک ایس کیو ایل کیلئے صارف دوست APIs کے ساتھ آتا ہے۔ اسپارک ایس کیو ایل ایس کیو ایل سے بہت ملتا جلتا ہے ، لہذا ایس کیو ایل ڈویلپرز کے لئے اسے سیکھنا آسان ہوجاتا ہے۔ چنگاری ڈویلپرز کو دوسرے افعال سے استفسار کرنے اور انجام دینے کے ل immediate ایک انٹرایکٹو شیل بھی فراہم کرتی ہے ، اور فوری طور پر رائے حاصل کرتی ہے۔

آپ ہڈوپ میں آسانی سے یا تو شیل کا استعمال کرکے یا اسکوپوپ ، فلایوم وغیرہ جیسے متعدد ٹولز کے ساتھ مربوط کرکے ڈیٹا کھا سکتے ہیں۔ یاران صرف ایک پروسیسنگ فریم ورک ہے اور اس کو ہائیوپ اور پگ جیسے متعدد ٹولز کے ساتھ مربوط کیا جاسکتا ہے۔ HIVE ایک ڈیٹا گودام کا جزو ہے جو ایس کیو ایل جیسے انٹرفیس کا استعمال کرتے ہوئے تقسیم شدہ ماحول میں بڑے ڈیٹا سیٹ کو پڑھنے ، تحریری شکل اور انتظام کا کام انجام دیتا ہے۔ آپ اس سے گزر سکتے ہیں ہڈوپ ماحولیاتی نظام ہڈوپ کے ساتھ مربوط ہونے والے مختلف ٹولز کے بارے میں جاننے کے لئے بلاگ۔

لاگت

ہڈوپ اور اسپارک دونوں ہی اپاچی اوپن سورس پروجیکٹس ہیں ، لہذا سافٹ ویئر کی قیمت نہیں ہے۔ لاگت صرف انفراسٹرکچر سے وابستہ ہے۔ دونوں مصنوعات کو اس طرح سے ڈیزائن کیا گیا ہے کہ وہ کم ٹی سی او کے ساتھ اجناس ہارڈویئر پر چل سکے۔

اب آپ حیران ہوں گے کہ ان طریقوں سے کہ وہ مختلف ہیں۔ ہڈوپ میں اسٹوریج اور پروسیسنگ ڈسک پر مبنی ہے اور ہڈوپ میموری کی معیاری مقدار استعمال کرتا ہے۔ لہذا ، ہڈوپ کے ساتھ ہمیں بہت زیادہ ڈسک کی جگہ کے ساتھ ساتھ تیز رفتار ڈسکوں کی بھی ضرورت ہے۔ ہڈوپ کو I / O ڈسک تقسیم کرنے کے لئے متعدد سسٹم کی بھی ضرورت ہوتی ہے۔

میموری پروسیسنگ میں اپاچی سپارک کی وجہ سے اس میں بہت زیادہ میموری کی ضرورت ہوتی ہے ، لیکن یہ معیاری رفتار اور ڈسک کی مقدار سے نمٹ سکتا ہے۔ چونکہ ڈسک کی جگہ نسبتا in سستی اجناس ہے اور چونکہ اسپارک پروسیسنگ کے لئے ڈسک I / O کا استعمال نہیں کرتا ہے ، اس کی بجائے اس میں میموری میں ہر چیز کو انجام دینے کے لئے بڑی مقدار میں رام کی ضرورت ہوتی ہے۔ اس طرح ، چنگاری نظام میں زیادہ لاگت آتی ہے۔

لیکن ہاں ، ایک اہم بات کو دھیان میں رکھیں کہ یہ ہے کہ اسپارک کی ٹکنالوجی مطلوبہ نظاموں کی تعداد کو کم کرتی ہے۔ اسے نمایاں طور پر کم سسٹم کی ضرورت ہے جن کی قیمت زیادہ ہے۔ لہذا ، ایک نقطہ ہوگا جس میں اسپارک نے اضافی رام کی ضرورت کے باوجود حساب کے فی یونٹ کے اخراجات کو بھی کم کردیا ہے۔

ڈیٹا پراسیسنگ

ڈیٹا پروسیسنگ کی دو قسمیں ہیں: بیچ پروسیسنگ اور اسٹریم پروسیسنگ۔

بیچ پروسیسنگ بمقابلہ اسٹریم پروسیسنگ

بیچ پراسیسنگ : بیچ پروسیسنگ بڑی ڈیٹا کی دنیا کے لئے اہم رہا ہے۔ آسان ترین اصطلاح میں ، بیچ پروسیسنگ ایک مدت کے دوران جمع کردہ اعلی ڈیٹا حجم کے ساتھ کام کر رہی ہے۔ بیچ میں پروسیسنگ کا ڈیٹا پہلے اکٹھا کیا جاتا ہے اور اس کے بعد پروسیس شدہ نتائج بعد کے مرحلے پر تیار کیے جاتے ہیں۔

بیچ پروسیسنگ بڑے ، جامد ڈیٹا سیٹ پر کارروائی کرنے کا ایک موثر طریقہ ہے۔ عام طور پر ، ہم محفوظ شدہ ڈیٹا سیٹوں کے لئے بیچ پروسیسنگ کرتے ہیں۔ مثال کے طور پر ، کسی ملک کی اوسط آمدنی کا حساب لگانا یا گذشتہ دہائی میں ای کامرس میں ہونے والی تبدیلی کا جائزہ لینا۔

سلسلہ کی کارروائی : بڑی ڈیٹا کی دنیا میں اسٹریم پروسیسنگ موجودہ رجحان ہے۔ وقت کی ضرورت تیز رفتار اور اصل وقت کی معلومات کی ہے ، یہ وہی ہے جو بھاپ پروسیسنگ کرتی ہے۔ بیچ پروسیسنگ بزنس کی ضروریات کو حقیقی وقت میں تبدیل کرنے پر تیزی سے رد عمل ظاہر کرنے کی اجازت نہیں دیتی ہے ، اسٹریم پروسیسنگ کی طلب میں تیزی سے اضافہ دیکھنے میں آیا ہے۔

اب اپاچی اسپارک بمقابلہ ہڈوپ پر واپس آتے ہوئے ، یاران بنیادی طور پر بیچ پروسیسنگ فریم ورک ہے۔ جب ہم یارن کو ملازمت پیش کرتے ہیں تو ، یہ کلسٹر کا ڈیٹا پڑھتا ہے ، آپریشن کرتا ہے اور کلسٹر کو نتائج لکھ دیتا ہے۔ پھر یہ ایک بار پھر تازہ ترین اعداد و شمار کو پڑھتا ہے ، اگلی کارروائی کرتا ہے اور نتائج کو کلسٹر پر لکھ دیتا ہے وغیرہ۔

چنگاری اسی طرح کی کاروائیاں انجام دیتی ہے ، لیکن اس میں میموری پروسیسنگ استعمال ہوتی ہے اور اقدامات کو بہتر بناتا ہے۔ گراف ایکس صارفین کو وہی اعداد و شمار دیکھنے کی اجازت دیتا ہے جیسے گراف اور جمع کے طور پر۔ صارفین لچکدار تقسیم شدہ ڈیٹاسیٹس (آر ڈی ڈی) کے ساتھ گراف میں بھی تبدیلی اور شامل ہوسکتے ہیں۔

غلطی رواداری

ہڈوپ اور اسپارک دونوں ہی غلطی رواداری فراہم کرتے ہیں ، لیکن دونوں کا نقطہ نظر مختلف ہے۔ ایچ ڈی ایف ایس اور یاران دونوں کے ل master ، ماسٹر ڈیمون (یعنی بالترتیب نامونڈ اور ریسورس منیجر) غلام ڈیمون کی دل کی دھڑکن (بالترتیب ڈیٹا نوڈ اور نوڈ مینجر) کی جانچ پڑتال کرتے ہیں۔ اگر کوئی غلام ڈیمان ناکام ہوتا ہے تو ، ماسٹر ڈیمنز نے تمام زیر التواء اور پیشرفت کار کارروائیوں کو کسی دوسرے غلام کے پاس ترتیب دیا ہے۔ یہ طریقہ کارگر ہے ، لیکن یہ واحد ناکامی کے ساتھ چلنے والی کارروائیوں کے تکمیل کے اوقات میں نمایاں اضافہ کرسکتا ہے۔ چونکہ ہڈوپ اجناس ہارڈویئر کا استعمال کرتا ہے ، ایک اور طریقہ جس میں ایچ ڈی ایف ایس غلطی رواداری کو یقینی بناتا ہے وہ ہے اعداد و شمار کی نقل تیار کرنا۔

جیسا کہ ہم نے اوپر تبادلہ خیال کیا ، آر ڈی ڈیز اپاچی اسپارک کے بلاکس بنا رہے ہیں۔ آر ڈی ڈی اسپارک کو غلطی رواداری فراہم کرتے ہیں۔ وہ بیرونی اسٹوریج سسٹم میں موجود کسی بھی ڈیٹاسیٹ کا حوالہ دے سکتے ہیں جیسے ایچ ڈی ایف ایس ، ایچ بیس ، مشترکہ فائل سسٹم۔ وہ متوازی طور پر چل سکتے ہیں۔

RDDs آپریشن کے دوران میموری میں ڈیٹاسیٹ برقرار رکھ سکتا ہے ، جو مستقبل کی کارروائیوں کو 10 گنا زیادہ تیز بناتا ہے۔ اگر کوئی آر ڈی ڈی کھو جاتا ہے تو ، اصلی تبدیلیوں کا استعمال کرکے خود بخود اس کی اصلاح کی جائے گی۔ اس طرح سپارک غلطی رواداری فراہم کرتا ہے۔

سیکیورٹی

ہڈوپ تصدیق کے ل Ker کربروس کی حمایت کرتا ہے ، لیکن اس کو سنبھالنا مشکل ہے۔ اس کے باوجود ، یہ توثیق کے ل third LDAP (لائٹ ویٹ ڈائرکٹری تک رسائی پروٹوکول) جیسے تھرڈ پارٹی کے دکانداروں کی بھی حمایت کرتا ہے۔ وہ خفیہ کاری بھی پیش کرتے ہیں۔ ایچ ڈی ایف ایس روایتی فائل اجازتوں کے ساتھ ساتھ ایکسیس کنٹرول لسٹس (ACLs) کی بھی حمایت کرتا ہے۔ ہڈوپ سروس لیول اتھارٹی فراہم کرتا ہے ، جو اس بات کی ضمانت دیتا ہے کہ مؤکلوں کو ملازمت پیش کرنے کے لئے صحیح اجازت حاصل ہے۔

چنگاری فی الحال مشترکہ راز کے توثیق کی حمایت کرتی ہے۔ چنگاری ایچ ڈی ایف ایس کے ساتھ مل سکتی ہے اور یہ ایچ ڈی ایف ایس اے سی ایل اور فائل سطح کی اجازتوں کا استعمال کر سکتی ہے۔ یارین پر بھی چنگاری چل سکتی ہے جو کریربوس کی صلاحیت کو بہتر بنا رہی ہے۔

ایسے معاملات جہاں ہڈوپ بہترین فٹ بیٹھتے ہیں۔

  • آرکائیو ڈیٹا کا تجزیہ کرنا۔ یاران ڈیٹا کی بڑی مقدار میں متوازی پروسیسنگ کی اجازت دیتا ہے۔ ڈیٹا کے کچھ حصوں پر متوازی طور پر اور علیحدہ علیحدہ طور پر مختلف ڈیٹا نوڈس پر عملدرآمد کیا جاتا ہے اور ہر نوڈ مینجر سے نتیجہ جمع ہوتا ہے۔
  • اگر فوری نتائج کی ضرورت نہیں ہے۔ ہڈوپ میپریڈوچ بیچ پروسیسنگ کے لئے ایک اچھا اور معاشی حل ہے۔

استعمال کے معاملات جہاں اسپارک بہترین فٹ بیٹھتا ہے:

ریئل ٹائم بگ ڈیٹا تجزیہ:

ریئل ٹائم ڈیٹا تجزیہ کا مطلب یہ ہے کہ واقعی واقعہ سلسلوں کے ذریعہ تیار کردہ ڈیٹا کو پروسیسنگ کرنا ، مثال کے طور پر ، ٹویٹر کے اعداد و شمار کے مطابق ہر سیکنڈ میں لاکھوں واقعات کی شرح میں آتے ہیں۔ اسپارک کی طاقت تقسیم صلاحیتوں کے ساتھ ساتھ اعداد و شمار کو چلانے میں مدد دینے کی اپنی صلاحیتوں میں ہے۔ یہ ایک مفید مجموعہ ہے جو اعداد و شمار کی ریئل ٹائم پروسیسنگ کے قریب فراہم کرتا ہے۔ میپریڈوسیس اس طرح کے فائدے سے معذور ہے کیونکہ یہ بڑی تعداد میں ڈیٹا پر بیچ سہ تقسیم شدہ پروسیسنگ کو انجام دینے کے لئے ڈیزائن کیا گیا تھا۔ ریئل ٹائم ڈیٹا پر اب بھی میپریڈوسیس پر کارروائی کی جاسکتی ہے لیکن اس کی رفتار سپارک سے کہیں زیادہ نہیں ہے۔

چنگاری میپریڈوسیس کے مقابلے میں ڈیٹا کو 100x تیز تر پروسس کرنے کا دعویٰ کرتی ہے ، جبکہ ڈسکس کے ساتھ 10x تیز۔

گراف پروسیسنگ:

صفحہ کی درجہ بندی جیسے زیادہ تر گراف پراسیسنگ الگورتھم ایک ہی اعداد و شمار پر متعدد تکرار کرتے ہیں اور اس میں پیغام گزرنے کے طریقہ کار کی ضرورت ہوتی ہے۔ ہمیں ایک ہی اعداد و شمار پر اس طرح کے متعدد تکرار کو سنبھالنے کے لئے واضح طور پر میپریڈس پروگرام کرنے کی ضرورت ہے۔ آہستہ آہستہ ، یہ اس طرح کام کرتا ہے: ڈسک سے ڈیٹا پڑھیں اور خاص تکرار کے بعد ، نتائج کو ایچ ڈی ایف ایس پر لکھیں اور پھر اگلی تکرار کے لئے ایچ ڈی ایف ایس سے ڈیٹا پڑھیں۔ یہ بہت غیر موثر ہے کیونکہ اس میں ڈسک پر ڈیٹا پڑھنا اور لکھنا شامل ہوتا ہے جس میں غلطی رواداری کے لئے کلسٹر میں بھاری I / O آپریشن اور ڈیٹا کی نقل شامل ہوتی ہے۔ نیز ، ہر میپریڈوس ایٹریشن میں بہت زیادہ دیر ہوتی ہے ، اور اگلی تکرار پچھلی نوکری مکمل طور پر ختم ہونے کے بعد ہی شروع ہوسکتی ہے۔

نیز ، میسجنگ پاسنگ کے لئے متعدد پڑوسی نوڈس کی ضرورت ہوتی ہے تاکہ کسی خاص نوڈ کے اسکور کا اندازہ کیا جاسکے۔ ان کمپیوٹوں کو اپنے پڑوسیوں (یا نوکری کے متعدد مراحل میں موجود ڈیٹا) کے پیغامات کی ضرورت ہے ، ایک ایسا طریقہ کار جس میں میپریڈس کا فقدان ہے۔ گراف پروسیسنگ الگورتھم کے لئے موثر پلیٹ فارم کی ضرورت کو حل کرنے کے لئے مختلف گراف پروسیسنگ ٹولز جیسے کہ پریگل اور گراف لیب کو ڈیزائن کیا گیا تھا۔ یہ ٹولز تیز اور اسکیل ایبل ہیں ، لیکن ان پیچیدہ ملٹی اسٹیج الگورتھم کی تشکیل اور پوسٹ پراسیسنگ کے لئے موثر نہیں ہیں۔

اپاچی سپارک کے تعارف نے ان مسائل کو کافی حد تک حل کیا۔ چنگاری میں ایک گراف کمپیوٹیشن لائبریری موجود ہے جسے گراف ایکس کہا جاتا ہے جو ہماری زندگی کو آسان بنا دیتا ہے۔ بلٹ گراف سپورٹ کے ساتھ ان می میموری کمپیوٹیشن ، روایتی میپریڈس پروگراموں کے مقابلے میں ایک یا دو ڈگری کی شدت سے الگورتھم کی کارکردگی کو بہتر بناتا ہے۔ اسپارک نے ایکزیکیٹیوٹرز میں پیغامات کی تقسیم کے لئے نیٹٹی اور اکا کا امتزاج استعمال کیا ہے۔ آئیے کچھ اعدادوشمار کو دیکھیں جن میں پیڈ رینک الگورتھم کی کارکردگی کو ہڈوپ اور اسپارک کا استعمال کرتے ہوئے دکھایا گیا ہے۔

Iterative مشین لرننگ الگورتھم:

تقریبا all ساری مشین لرننگ الگورتھم دوبارہ چلنے کے ساتھ کام کرتے ہیں۔ جیسا کہ ہم نے پہلے دیکھا ہے ، تکراری الگورتھم میپریڈوس عمل میں I / O رکاوٹوں کو شامل کرتے ہیں۔ میپریڈوسی موٹے دانوں والے کاموں (ٹاسک لیول کی ہم آہنگی) کا استعمال کرتی ہے جو تکراری الگورتھم کے ل too بہت بھاری ہیں۔ میسوس کی مدد سے چنگاری - ایک تقسیم شدہ نظام دانا ، ہر اعداد کے بعد انٹرمیڈیٹ ڈیٹاسیٹ کو کیچ کرتا ہے اور اس کیشڈ ڈیٹاسیٹ پر متعدد تکرار چلاتا ہے جس سے I / O کم ہوتا ہے اور غلطی رواداری والے انداز میں الگورتھم کو تیزی سے چلانے میں مدد ملتی ہے۔

اسپارک میں ایک بلٹ ان اسکیل ایبل مشین لرننگ لائبریری ہے جسے MLlib کہا جاتا ہے جس میں اعلی معیار کے الگورتھم موجود ہیں جو تکرار سے فائدہ اٹھاتے ہیں اور کبھی کبھی میپریڈس پر استعمال ہونے والے ایک پاس کے قریب سے بہتر نتائج برآمد کرتے ہیں۔

  • فاسٹ ڈیٹا پروسیسنگ۔ جیسا کہ ہم جانتے ہیں ، سپارک ان میموری پروسیسنگ کی اجازت دیتا ہے۔ اس کے نتیجے میں ، اسپارک رام میں موجود ڈیٹا کے لئے 100 گنا اور اسٹوریج میں ڈیٹا کے ل 10 10 گنا زیادہ تیز ہے۔
  • Iterative پروسیسنگ. اسپارک کے آر ڈی ڈیز میموری میں متعدد نقشے کے کام انجام دینے کی اجازت دیتے ہیں ، بغیر کسی ڈسک پر عبوری ڈیٹا سیٹ لکھنے کی ضرورت ہوتی ہے۔
  • ریئل ٹائم پروسیسنگ کے قریب کاروبار کو فوری طور پر بصیرت فراہم کرنے کے لئے چنگاری ایک بہترین ٹول ہے۔ یہی وجہ ہے کہ اسپارک کو کریڈٹ کارڈ کے محرومی نظام میں استعمال کیا جاتا ہے۔

'اپاچی چنگاری: اپاچی ہیدوپ کا قاتل یا نجات دہندہ؟'

اس کا جواب - ہڈوپ میپریڈوسیس اور اپاچی اسپارک ایک دوسرے سے مقابلہ نہیں کر رہے ہیں۔ در حقیقت ، وہ ایک دوسرے کو کافی اچھی طرح سے تکمیل کرتے ہیں۔ ہڈوپ اجناس نظام کے ذریعہ بہت بڑا ڈیٹاسیٹ کنٹرول میں لاتا ہے۔ چنگاری ان اعداد و شمار کے سیٹوں کے ل-ریئل ٹائم ، ان می میموری پروسیسنگ مہیا کرتی ہے جن کی ضرورت ہوتی ہے۔ جب ہم یکجا ہوجاتے ہیں ، آپاچی اسپارک کی قابلیت ، یعنی اعلی پروسیسنگ کی رفتار ، ایڈوانس تجزیات اور ایک سے زیادہ انضمام معاونت ہيڈوپ کے کموڈٹی ہارڈویئر پر کم لاگت کے آپریشن کے ساتھ ، یہ بہترین نتائج دیتی ہے۔ ہڈوپ نے اپاچی سپارک صلاحیتوں کی تعریف کی۔ چنگاری ہڈوپ کو پوری طرح سے تبدیل نہیں کرسکتی ہے لیکن اچھی خبر یہ ہے کہ اس وقت سپارک کی مانگ ہر وقت اونچی ہے! اسپارک کو عبور حاصل کرنے اور کیریئر کے زیادہ سے زیادہ مواقع جو آپ کے راستے پر آسکتے ہیں اس میں مہارت حاصل کرنے کا یہ صحیح وقت ہے۔ چلئے اب شروع کریں!

ہمارے لئے ایک سوال ہے؟ برائے کرم اس کا تذکرہ سیکشن میں ذکر کریں اور ہم جلد سے جلد آپ کو ملیں گے۔

ابتدائیہ افراد کے لئے سرور کی بنیادی باتیں

اگر آپ اصلی زندگی کے استعمال کے معاملات کے ساتھ آر ڈی ڈی ، اسپارک اسٹریمنگ ، اسپارک ایس کیو ایل ، ایم ایللیب ، گرافکس اور سکالا کا استعمال کرتے ہوئے بڑے پیمانے پر ڈیٹا پروسیسنگ کا استعمال کرتے ہوئے اسپارک کے ڈومین میں کیریئر بنانا چاہتے ہیں تو ، ہمارے انٹرایکٹو ، براہ راست آن لائن کو چیک کریں۔ یہاں ، جو آپ کے سیکھنے کی پوری مدت میں آپ کی رہنمائی کے لئے 24 * 7 سپورٹ کے ساتھ آتا ہے۔