ایچ ڈی ایف ایس ٹیوٹوریل: ایچ ڈی ایف ایس اور اس کی خصوصیات کا تعارف



یہ ایچ ڈی ایف ایس ٹیوٹوریل بلاگ آپ کو ایچ ڈی ایف ایس یا ہڈوپ تقسیم شدہ فائل سسٹم اور اس کی خصوصیات کو سمجھنے میں مدد فراہم کرے گا۔ آپ اس کے بنیادی اجزاء کو بھی مختصر طور پر تلاش کریں گے۔

ایچ ڈی ایف ایس ٹیوٹوریل

اس ایچ ڈی ایف ایس ٹیوٹوریل بلاگ میں آگے بڑھنے سے پہلے ، میں آپ کو ایچ ڈی ایف ایس سے متعلق کچھ پاگل اعداد و شمار کے بارے میں جاننے دیتا ہوں:

  • 2010 میں، فیس بک سب سے بڑا ایچ ڈی ایف ایس کلسٹر اسٹور کرنے کا دعوی کیا 21 پیٹا بائٹس ڈیٹا کی.
  • 2012 میں ، فیس بک اعلان کیا کہ ان کے پاس سب سے بڑا سنگل ایچ ڈی ایف ایس کلسٹر ہے جس میں اس سے زیادہ ہے 100 پی بی ڈیٹا کی .
  • اور یاہو ! سے زیادہ ہے 100،000 سی پی یو میں ختم 40،000 سرورز ہڈوپ چل رہا ہے ، اس کا سب سے بڑا ہڈوپ کلسٹر چل رہا ہے 4،500 نوڈس . سبھی نے بتایا ، یاہو! اسٹورز 455 پیٹا بائٹس ایچ ڈی ایف ایس میں ڈیٹا کی۔
  • در حقیقت ، 2013 تک ، فارچیون 50 میں زیادہ تر بڑے ناموں نے ہڈوپ کا استعمال شروع کیا۔

ہضم کرنا بہت مشکل ہے؟ ٹھیک ہے جیسا کہ میں زیر بحث آیا ، ہیدوپ کی دو بنیادی اکائیاں ہیں۔ ایس torage اور پروسیسنگ . جب میں ہڈوپ کا اسٹوریج پارٹ کہتا ہوں تو ، میں اس کا حوالہ دیتا ہوں ایچ ڈی ایف ایس جس کا مطلب ہے ہڈوپ تقسیم شدہ فائل سسٹم . لہذا ، اس بلاگ میں ، میں آپ سے تعارف کرواؤں گا ایچ ڈی ایف ایس .





اپاچی ہاڈوپ کے لئے cloudera مصدقہ ڈویلپر

یہاں ، میں بات کروں گا:

  • ایچ ڈی ایف ایس کیا ہے؟
  • ایچ ڈی ایف ایس کے فوائد
  • ایچ ڈی ایف ایس کی خصوصیات

ایچ ڈی ایف ایس کے بارے میں بات کرنے سے پہلے ، میں آپ کو بتاتا چلوں کہ ، ڈسٹری بیوٹیڈ فائل سسٹم کیا ہے؟



ڈی ایف ایس یا تقسیم فائل سسٹم:

تقسیم شدہ فائل سسٹم کے بارے میں بات کرتا ہے انتظام کرنا ڈیٹا ، یعنی متعدد کمپیوٹرز یا سرورز میں فائلیں یا فولڈرز۔ دوسرے لفظوں میں ، ڈی ایف ایس ایک فائل سسٹم ہے جو ہمیں ایک کلسٹر میں ایک سے زیادہ نوڈس یا مشینوں پر ڈیٹا اسٹور کرنے کی اجازت دیتا ہے اور متعدد صارفین کو ڈیٹا تک رسائی حاصل کرنے کی اجازت دیتا ہے۔ لہذا بنیادی طور پر ، وہی فائل سسٹم کی طرح کام کرتا ہے جو آپ کی مشین میں دستیاب ہے جیسے ونڈوز کے لئے جیسے آپ کے پاس این ٹی ایف ایس (نیا ٹکنالوجی فائل سسٹم) ہے یا میک کے لئے آپ کے پاس ایچ ایف ایس (ہائیرارکیکل فائل سسٹم) ہے۔ فرق صرف اتنا ہے کہ ، ڈسٹری بیوٹڈ فائل سسٹم کی صورت میں ، آپ ایک ہی مشین کے بجائے ڈیٹا ایک سے زیادہ مشینوں میں محفوظ کرتے ہیں۔ اگرچہ فائلوں کو پورے نیٹ ورک میں محفوظ کیا جاتا ہے ، DFS منظم اور اعداد و شمار کو اس انداز میں دکھاتا ہے کہ مشین پر بیٹھا صارف محسوس کرے گا جیسے اس مشین میں تمام ڈیٹا محفوظ ہے۔

ایچ ڈی ایف ایس کیا ہے؟

ہڈوپ ڈسٹری بیوٹیڈ فائل سسٹم یا ایچ ڈی ایف ایس ایک جاوا پر مبنی تقسیم شدہ فائل سسٹم ہے جو آپ کو ہڈوپ کلسٹر میں ایک سے زیادہ نوڈس کے پار بڑے ڈیٹا کو محفوظ کرنے کی سہولت دیتا ہے۔ لہذا ، اگر آپ ہڈوپ انسٹال کرتے ہیں تو ، آپ کو تقسیم شدہ ماحول میں ڈیٹا کو اسٹور کرنے کے لئے بنیادی اسٹوریج سسٹم کے طور پر ایچ ڈی ایف ایس ملتا ہے۔

آئیے اس کو سمجھنے کے لئے ایک مثال لیتے ہیں۔ ذرا تصور کریں کہ آپ کے پاس ہر مشین پر 1 ٹی بی کی ہارڈ ڈرائیو کے ساتھ دس مشینیں یا دس کمپیوٹر ہیں۔ اب ، ایچ ڈی ایف ایس کا کہنا ہے کہ اگر آپ ہڈوپ کو ان دس مشینوں میں سے ایک پلیٹ فارم کے طور پر انسٹال کرتے ہیں تو ، آپ کو اسٹوریج سروس کے طور پر ایچ ڈی ایف ایس مل جائے گا۔ ہڈوپ ڈسٹری بیوٹڈ فائل سسٹم کو اس طرح تقسیم کیا گیا ہے کہ ہر مشین کسی بھی طرح کے ڈیٹا کو اسٹور کرنے کے لئے اپنے انفرادی اسٹوریج میں تعاون کرتی ہے۔



ایچ ڈی ایف ایس ٹیوٹوریل: ایچ ڈی ایف ایس کے فوائد

1. تقسیم اسٹوریج:

تقسیم شدہ اسٹوریج - ایچ ڈی ایف ایس ٹیوٹوریل - ایڈورکا

جب آپ ہڈوپ کلسٹر میں کسی بھی دس مشینوں سے ہڈوپ ڈسٹری بیوٹڈ فائل سسٹم تک رسائی حاصل کرتے ہیں تو آپ کو ایسا محسوس ہوگا جیسے آپ نے کسی ایک بڑی مشین میں لاگ ان کیا ہو جس میں 10 ٹی بی (دس مشینوں سے زیادہ اسٹوریج) کی گنجائش موجود ہے۔ اس کا کیا مطلب ہے؟ اس کا مطلب یہ ہے کہ آپ 10 ٹی بی کی ایک بڑی فائل اسٹور کرسکتے ہیں جو دس مشینوں (ہر ایک ٹی بی) میں تقسیم ہوگی۔پس یہ ہے جسمانی حدود تک ہی محدود نہیں ہر ایک مشین کی

2. تقسیم اور متوازی حساب:

چونکہ ڈیٹا مشینوں میں تقسیم ہوا ہے ، لہذا یہ ہمیں فائدہ اٹھانے کی اجازت دیتا ہے تقسیم اور متوازی حساب کتاب . آئیے مذکورہ مثال سے اس تصور کو سمجھیں۔ فرض کریں ، کسی ایک مشین پر 1 ٹی بی فائل پر کارروائی کرنے میں 43 منٹ کا وقت لگتا ہے۔ تو ، اب آپ مجھے بتائیں ، جب آپ کے پاس ہڈوپ کلسٹر میں اسی طرح کی تشکیل والی machines 43 منٹ یا 3.3 منٹ کی 10 مشینیں ہیں تو اسی 1 ٹی بی فائل پر کارروائی کرنے میں کتنا وقت لگے گا؟ 4.3 منٹ ، ٹھیک ہے! یہاں کیا ہوا ہے؟ ہر نوڈ متوازی 1 TB فائل کے ایک حصے کے ساتھ کام کر رہا ہے۔ لہذا ، کام جو 43 منٹ پہلے لے رہا تھا ، اب صرف 4.3 منٹ میں ختم ہوجاتا ہے کیونکہ کام دس مشینوں پر تقسیم ہوگیا ہے۔

3. افقی اسکیل ایبلٹی:

آخری لیکن کم سے کم نہیں ، آئیے ہم بات کرتے ہیں افقی پیمانے پر یا باہر کی پیمائش ہڈوپ میں۔ اسکیلنگ کی دو اقسام ہیں۔ عمودی اور افقی . عمودی پیمانے پر (پیمانے پر) ، آپ اپنے سسٹم کی ہارڈ ویئر کی گنجائش میں اضافہ کرتے ہیں۔ دوسرے الفاظ میں ، آپ زیادہ رام یا سی پی یو حاصل کرتے ہیں اور اسے اپنے موجودہ سسٹم میں شامل کرتے ہیں تاکہ اسے مزید مضبوط اور طاقتور بنایا جاسکے۔ لیکن عمودی پیمانے پر پیمانے یا پیمانے سے متعلق چیلنجز موجود ہیں:

  • ہمیشہ ایک حد ہوتی ہے جس میں آپ اپنے ہارڈ ویئر کی استعداد بڑھا سکتے ہیں۔ لہذا ، آپ مشین کی رام یا سی پی یو میں اضافہ نہیں کرسکتے ہیں۔
  • عمودی پیمانے پر ، آپ اپنی مشین پہلے روکیں۔ پھر آپ رام یا سی پی یو میں اضافہ کرتے ہیں تاکہ اسے زیادہ مضبوط ہارڈویئر اسٹیک بنایا جاسکے۔ اپنے ہارڈ ویئر کی استعداد بڑھانے کے بعد ، آپ مشین دوبارہ اسٹارٹ کریں گے۔ یہ کم وقت جب آپ اپنے سسٹم کو روک رہے ہیں تو یہ ایک چیلنج بن جاتا ہے۔

کی صورت میں افقی اسکیلنگ (اسکیل آؤٹ) ، آپ انفرادی مشینوں کی ہارڈ ویئر کی گنجائش بڑھانے کے بجائے موجودہ کلسٹر میں مزید نوڈس شامل کرتے ہیں۔ اور سب سے اہم بات ، آپ کر سکتے ہیں چلتے پھرتے مزید مشینیں شامل کریں یعنی نظام کو روکنے کے بغیر . لہذا ، اسکیل کرتے وقت ہمارے پاس کوئی ٹائم ٹائم یا گرین زون نہیں ہوتا ہے ، اس قسم کا کچھ بھی نہیں ہوتا ہے۔ دن کے اختتام پر ، آپ کے پاس آپ کی ضروریات کو پورا کرنے کے لئے متوازی طور پر مزید مشینیں کام کریں گی۔

ایچ ڈی ایف ایس ٹیوٹوریل ویڈیو:

آپ ذیل میں دی گئی ویڈیو چیک کرسکتے ہیں جہاں ایچ ڈی ایف ایس سے متعلق تمام تصورات پر تفصیل سے تبادلہ خیال کیا گیا ہے:

جاوا میں آرمی کیا ہے؟

ایچ ڈی ایف ایس ٹیوٹوریل: ایچ ڈی ایف ایس کی خصوصیات

ہم ان خصوصیات کو تفصیل سے سمجھیں گے جب ہم اپنے اگلے ایچ ڈی ایف ایس ٹیوٹوریل بلاگ میں ایچ ڈی ایف ایس آرکیٹیکچر کو تلاش کریں گے۔ لیکن ، ابھی کے لئے ، ایچ ڈی ایف ایس کی خصوصیات پر ایک جائزہ لیں:

  • لاگت: عام طور پر ، ایچ ڈی ایف ایس آپ کے ڈیسک ٹاپ / لیپ ٹاپ جیسے اجناس ہارڈویئر پر تعینات ہے جسے آپ ہر روز استعمال کرتے ہیں۔ تو ، اس منصوبے کی ملکیت کی لاگت کے لحاظ سے بہت اقتصادی ہے۔ چونکہ ، ہم کم لاگت والے اجناس ہارڈویئر کا استعمال کر رہے ہیں ، لہذا آپ کو اپنے ہڈوپ کلسٹر کو اسکیل کرنے کے لئے بہت زیادہ رقم خرچ کرنے کی ضرورت نہیں ہے۔ دوسرے الفاظ میں ، آپ کے ایچ ڈی ایف ایس میں مزید نوڈس شامل کرنا قیمت کا فائدہ ہے۔
  • ڈیٹا کی مختلف قسم اور حجم: جب ہم ایچ ڈی ایف ایس کے بارے میں بات کرتے ہیں تو ہم بھاری ڈیٹا کو ذخیرہ کرنے کے بارے میں بات کرتے ہیں یعنی ٹیرا بائٹس اور پیٹا بائٹس کے ڈیٹا اور مختلف قسم کے ڈیٹا کو۔ لہذا ، آپ کسی بھی طرح کا ڈیٹا ایچ ڈی ایف ایس میں اسٹور کرسکتے ہیں ، چاہے وہ ڈھانچہ ، غیر ساختہ یا نیم ساختہ ہو۔
  • قابل اعتماد اور غلطی رواداری: جب آپ ایچ ڈی ایف ایس پر ڈیٹا اسٹور کرتے ہیں تو ، یہ اندرونی طور پر دیئے گئے ڈیٹا کو ڈیٹا بلاکس میں تقسیم کرتا ہے اور آپ کے ہڈوپ کلسٹر میں تقسیم انداز میں اسٹور کرتا ہے۔ میٹا ڈیٹا میں کون سا ڈیٹا نوڈس درج کیا جاتا ہے اس کے بارے میں معلومات۔ نام نام میٹا ڈیٹا اور ڈیٹانوڈس ڈیٹا کو ذخیرہ کرنے کے ذمہ دار ہیں۔
    نام نوڈ ڈیٹا کو بھی نقل کرتا ہے یعنی ڈیٹا کی متعدد کاپیاں برقرار رکھتا ہے۔ ڈیٹا کی اس نقل کو ایچ ڈی ایف ایس انتہائی قابل اعتماد اور غلطی کو روادار بناتا ہے۔ لہذا ، یہاں تک کہ اگر نوڈس میں سے کوئی بھی ناکام ہوجاتا ہے تو ، ہم دوسرے ڈیٹا نوڈس پر مشتمل نقلوں سے ڈیٹا بازیافت کرسکتے ہیں۔ ڈیفالٹ کے مطابق ، نقل کا عنصر 3 ہے۔ لہذا ، اگر آپ ایچ ڈی ایف ایس میں 1 جی بی فائل اسٹور کرتے ہیں تو ، یہ آخر کار 3 جی بی جگہ پر قابض ہوجائے گا۔ نام نوڈ وقتا فوقتا میٹا ڈیٹا کو اپ ڈیٹ کرتا ہے اور نقل کی فیکٹر کو برقرار رکھتا ہے۔
  • ڈیٹا کی سالمیت: ڈیٹا کی سالمیت اس بارے میں بات کرتی ہے کہ آیا میرے ایچ ڈی ایف ایس میں محفوظ ڈیٹا درست ہے یا نہیں۔ ایچ ڈی ایف ایس اس کی جانچ پڑتال کے خلاف ذخیرہ شدہ ڈیٹا کی سالمیت کو مسلسل چیک کرتا ہے۔ اگر اس میں کوئی نقص محسوس ہوتا ہے تو ، اس کے بارے میں نام نوڈ کو اطلاع دیتا ہے۔ پھر ، نام نوڈ اضافی نئی نقل تیار کرتا ہے اور اسی وجہ سے خراب شدہ کاپیاں حذف کردیتا ہے۔
  • بھاری پیداوار: یونٹ ٹائم میں ہونے والے کام کی مقدار تھرو پٹ ہے۔ اس کے بارے میں بات کی گئی ہے کہ آپ فائل سسٹم سے ڈیٹا تک کتنی تیزی سے رسائی حاصل کرسکتے ہیں۔ بنیادی طور پر ، یہ آپ کو نظام کی کارکردگی کے بارے میں بصیرت فراہم کرتا ہے۔ جیسا کہ آپ نے مندرجہ بالا مثال میں دیکھا ہے جہاں ہم گنتی کو بڑھانے کے لئے اجتماعی طور پر دس مشینیں استعمال کرتے ہیں۔ وہاں ہم پروسیسنگ کا وقت کم کرنے میں کامیاب رہے 43 منٹ محض 4.3 منٹ چونکہ تمام مشینیں متوازی طور پر کام کر رہی تھیں۔ لہذا ، متوازی طور پر اعداد و شمار پر کارروائی کرکے ، ہم نے پروسیسنگ کے وقت میں زبردست کمی کردی اور اس طرح ، اعلی تھروپ حاصل کیا۔
  • ڈیٹا لوکلائٹی: ڈیٹا لوکلائٹی ڈیٹا کو پروسیسنگ یونٹ میں منتقل کرنے کے بجائے ڈیٹا میں پروسیسنگ یونٹ منتقل کرنے کی بات کرتی ہے۔ ہمارے روایتی نظام میں ، ہم اطلاق کی پرت میں ڈیٹا لاتے تھے اور پھر اس پر کارروائی کرتے تھے۔ لیکن اب ، فن تعمیر اور اعداد و شمار کی بڑی مقدار کی وجہ سے ، ڈیٹا کو ایپلی کیشن پرت میں لانے کی مرضی ہےنمایاں حد تک نیٹ ورک کی کارکردگی کو کم کریں.لہذا ، ایچ ڈی ایف ایس میں ، ہم کمپیوٹیشن حصہ کو ڈیٹا نوڈس پر لاتے ہیں جہاں ڈیٹا رہتا ہے۔ لہذا ، آپ کوائف منتقل نہیں کررہے ہیں ، آپ پروگرام یا عمل لا رہے ہیںاعداد و شمار کو حصہ.

لہذا اب ، آپ کو ایچ ڈی ایف ایس اور اس کی خصوصیات کے بارے میں ایک مختصر سا خیال ہے۔ لیکن مجھ پر بھروسہ کیجئے ، یہ تو برفانی خط کی نوک ہے۔ میری اگلی میں ، میں گہری ڈوبکی گے ایچ ڈی ایف ایس فن تعمیر اور میں ایچ ڈی ایف ایس کی کامیابی کے راز سے پردہ اٹھاؤں گا۔ ہم ایک ساتھ مل کر ان سارے سوالات کے جوابات دیں گے جو آپ کے دماغ میں زیر غور ہیں جیسے:

  • جب آپ ہڈوپ ڈسٹریبیوٹڈ فائل سسٹم میں ڈیٹا پڑھتے یا لکھتے ہو تو پردے کے پیچھے کیا ہوتا ہے؟
  • ریک بیداری جیسے الگورتھم کیا ہیں جو ایچ ڈی ایف ایس کو غلطی کو روادار بنا دیتے ہیں؟
  • ہڈوپ ڈسٹری بیوٹڈ فائل سسٹم کا انتظام کرنے اور نقل تیار کرنے کا طریقہ
  • بلاک آپریشن کیا ہیں؟

اب جب آپ ایچ ڈی ایف ایس اور اس کی خصوصیات کو سمجھ چکے ہیں تو ، چیک کریں ایڈوریکا کے ذریعہ ، ایک قابل اعتماد آن لائن سیکھنے والی کمپنی جس کی دنیا بھر میں 250،000 سے زیادہ مطمئن سیکھنے والوں کے نیٹ ورک ہیں۔ ایڈورکا بگ ڈیٹا ہاڈوپ سرٹیفیکیشن ٹریننگ کورس سیکھنے والوں کو ایچ ڈی ایف ایس ، سوت ، میپریڈوسیس ، پگ ، ہائوی ، ایچ بیس ، اوزی ، فلیوم اور سکوپ میں ماہر بننے میں مدد دیتا ہے جس کا استعمال خوردہ ، سوشل میڈیا ، ہوا بازی ، سیاحت ، فنانس ڈومین پر حقیقی وقت کے استعمال کے معاملات ہے۔

ہمارے لئے ایک سوال ہے؟ برائے کرم اس کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔