بڑے اعداد و شمار کو کچلنے کے لئے ضروری ہڈوپ ٹولز



ہڈوپ آج آئی ٹی کی دنیا میں بز کا لفظ ہے ، اور اس پوسٹ میں ہڈوپ کے ان ضروری ٹولز کی وضاحت کی گئی ہے جو بگ ڈیٹا کو خراب کرتے ہیں۔

آج ، آئی ٹی دنیا میں سب سے مشہور اصطلاح ’ہڈوپ‘ ہے۔ بہت کم وقت میں ، ہڈوپ بڑے پیمانے پر ترقی ہوئی ہے اور متنوع منصوبوں کے ایک بڑے ذخیرے کے لئے کارآمد ثابت ہوئی ہے۔ ہڈوپ کمیونٹی تیزی سے ترقی کر رہی ہے اور اس کے ماحولیاتی نظام میں نمایاں کردار ہے۔





یہ ضروری ہڈوپ ٹولز پر ایک نظر ہے جو بگ ڈیٹا کو ہینڈل کرنے کے لئے استعمال ہوتا ہے۔

الگورتھم کو ترتیب دیں سی ++

ambari



امباری اپاچی پروجیکٹ ہے جس کی حمایت ہارٹن ورکس نے کی ہے۔ یہ ویب پر مبنی GUI (گرافیکل یوزر انٹرفیس) پیش کرتا ہے جس میں زیادہ تر معیاری اجزاء کے ساتھ کلسٹر قائم کرنے کے لئے وزرڈ اسکرپٹس ہوتے ہیں۔ امباراری ہڈوپ ملازمتوں کے تمام گروپوں کو ، انتظامات اور نگرانی کرتا ہے۔

hdfs-logo

ایچ ڈی ایف ایس ، اپاچی لائسنس کے تحت تقسیم متعدد نوڈس کے مابین ڈیٹا اکٹھا کرنے کا ایک بنیادی ڈھانچہ پیش کرتا ہے۔ ایچ ڈی ایف ایس میں ، بڑی فائلوں کو بلاکس میں توڑ دیا جاتا ہے ، جہاں متعدد نوڈس فائل کے تمام بلاکس کو روکتے ہیں۔ فائل سسٹم کو اس طرح سے ڈیزائن کیا گیا ہے کہ غلطی رواداری کو ہائی تھرو پٹ کے ساتھ ملایا جا.۔ مستحکم سلسلہ بندی کو برقرار رکھنے کے لئے ایچ ڈی ایف ایس کے بلاکس کو بھری ہوئی ہے۔ انہیں عام طور پر تاخیر کو کم سے کم کرنے کے لئے محفوظ نہیں کیا جاتا ہے۔



hbaselogo

HBase ایک کالم پر مبنی ڈیٹا بیس منیجمنٹ سسٹم ہے جو ایچ ڈی ایف ایس کے اوپر چلتا ہے۔ HBase ایپلی کیشنز جاوا میں لکھی گئی ہیں ، بہت زیادہ MapReduce ایپلی کیشن کی طرح۔ اس میں میزوں کا ایک مجموعہ شامل ہے ، جہاں ہر جدول میں روایتی ڈیٹا بیس کی طرح قطاریں اور کالم شامل ہیں۔ جب ڈیٹا بڑے ٹیبل میں پڑتا ہے ، تو HBase ڈیٹا کو اسٹور کرے گا ، اس کو تلاش کرے گا اور ٹیبل کو خود بخود ایک سے زیادہ نوڈس میں بانٹ دے گا تاکہ میپریڈوسیس کی نوکریاں اسے مقامی طور پر چلاسکیں۔ HBase کچھ مقامی تبدیلیوں کے ل limited محدود گارنٹی پیش کرتا ہے۔ ایک ہی صف میں ہونے والی تبدیلیاں بیک وقت کامیاب یا ناکام ہوسکتی ہیں۔

hive

اگر آپ پہلے ہی ایس کیو ایل کے ساتھ روانی کررہے ہیں ، تو آپ ہڈوپ کو استعمال کرکے فائدہ اٹھاسکتے ہیں چھتے . Hive کو فیس بک میں کچھ لوگوں نے تیار کیا تھا۔ اپاچی Hive HBase میں موجود تمام فائلوں سے بٹس نکالنے کے عمل کو منظم کرتا ہے۔ یہ ہڈوپ کے ایچ ڈی ایف ایس اور مطابقت پذیر فائل سسٹم میں ذخیرہ کرنے والے بڑے ڈیٹاسیٹس کے تجزیے کی حمایت کرتا ہے۔ یہ ایک ایس کیو ایل جیسی زبان بھی فراہم کرتا ہے جسے HSQL (HiveSQL) کہا جاتا ہے جو فائلوں میں داخل ہو جاتا ہے اور کوڈ کے لئے مطلوبہ ٹکڑوں کو نکالتا ہے۔

sqoop

اپاچی سکوپ خاص طور پر بلک ڈیٹا کو روایتی ڈیٹا بیس سے موثر طریقے سے Hive یا HBase میں منتقل کرنے کے لئے ڈیزائن کیا گیا ہے۔ یہ ہڈوپ سے ڈیٹا نکالنے اور اسے خارجی ساختہ ڈیٹا اسٹورز جیسے رشتہ دار ڈیٹا بیس اور انٹرپرائز ڈیٹا گوداموں میں برآمد کرنے کے لئے بھی استعمال کیا جاسکتا ہے۔ سکوپ ایک کمانڈ لائن ٹول ہے ، جو ٹیبلز اور ڈیٹا اسٹوریج پرت کے مابین نقشہ سازی کرتا ہے ، اور ٹیبلز کو ایچ ڈی ایف ایس ، ایچ بیس یا ہائیو کے ترتیب سے جوڑنے میں ترجمہ کرتا ہے۔

Pig1

جب ذخیرہ شدہ ڈیٹا ہڈوپ کیلئے مرئی ہوتا ہے ، اپاچی سور اعداد و شمار میں غوطہ لگاتا ہے اور اس کوڈ کو چلاتا ہے جو اس کی اپنی زبان میں لکھا جاتا ہے ، جسے پگ لاطینی کہا جاتا ہے۔ ڈیٹا کو سنبھالنے کے لئے پگ لاطینی تجرید سے بھرا ہوا ہے۔ سور عام کاموں جیسے اعداد و شمار کی اوسط ، تاریخوں کے ساتھ کام کرنا ، یا ڈور کے مابین فرق تلاش کرنے کے لئے معیاری کام کے ساتھ آتا ہے۔ جب معیاری کام کم ہوجاتے ہیں تو سور صارف کو خود سے زبانیں لکھنے کی اجازت دیتا ہے ، جسے یو ڈی ایف (یوزر ڈیفائنڈ فنکشن) کہتے ہیں۔

zookeper

زو کیپر ایک سنٹرلائزڈ خدمت ہے جو معلومات کو برقرار رکھتی ہے ، تشکیل دیتی ہے ، نام بتاتی ہے اور کلسٹر میں تقسیم شدہ ہم آہنگی فراہم کرتی ہے۔ یہ کلسٹر پر فائل سسٹم جیسا ہائیرکی لگاتا ہے اور مشینوں کے لئے تمام میٹا ڈیٹا کو اسٹور کرتا ہے ، لہذا ہم مختلف مشینوں کے کام کو ہم آہنگ کرسکتے ہیں۔

NoSQL

کچھ ہڈوپ کلسٹرس کے ساتھ ضم ہوجاتے ہیں NoSQL ڈیٹا اسٹور جو نوڈس کے ایک جھرمٹ میں ڈیٹا اسٹور کرنے کے اپنے میکانزم کے ساتھ آتے ہیں۔ اس سے وہ NoSQL ڈیٹا بیس کی تمام خصوصیات کے ساتھ اعداد و شمار کو اسٹور اور بازیافت کرسکتے ہیں ، جس کے بعد ہڈوپ کو اسی کلسٹر پر ڈیٹا انیلیسیس ملازمتوں کا شیڈول کرنے کے لئے استعمال کیا جاسکتا ہے۔

mahoutlogo

مہوت ہڈوپ کلسٹر پر اعداد و شمار کے تجزیہ کی بڑی تعداد میں الگورتھم ، درجہ بندی اور فلٹرنگ نافذ کرنے کے لئے ڈیزائن کیا گیا ہے۔ بہت سے معیاری الگورتھم جیسے کے ذرائع ، ڈری شیلیٹ ، متوازی نمونہ اور بایسیئن درجہ بندیاں ہڈوپ طرز کے نقشے کے ساتھ ڈیٹا پر چلانے اور کم کرنے کے لئے تیار ہیں۔

لوزین ، جاوا میں لکھا ہوا اور ہڈوپ کے ساتھ آسانی سے مربوط ، ہڈوپ کا قدرتی ساتھی ہے۔ یہ ایک ٹول ہے جس کا مقصد غیر ساختہ متن کے بڑے بلاکس کو انڈیکس کرنا ہے۔ Lucene انڈیکسنگ سنبھالتی ہے ، جبکہ ہڈوپ کلسٹر میں تقسیم شدہ سوالات کو سنبھالتے ہیں۔ نئے پروجیکٹس تیار ہوتے ہی Lucene-Hadoop خصوصیات تیزی کے ساتھ تیار ہورہی ہیں۔

Avro

یورو ایک سیریلائزیشن سسٹم ہے جو اس کو سمجھنے کے لئے اسکیما کے ساتھ مل کر ڈیٹا کو بنڈل کرتا ہے۔ ہر پیکٹ JSON ڈیٹا ڈھانچے کے ساتھ آتا ہے۔ JSON وضاحت کرتا ہے کہ کیسے ڈیٹا کو تجزیہ کیا جاسکتا ہے۔ JSON کا ہیڈر اعداد و شمار کی ساخت کی وضاحت کرتا ہے ، جہاں کھیتوں کو نشان زد کرنے کیلئے ڈیٹا میں اضافی ٹیگ لکھنے کی ضرورت سے بچا جاسکتا ہے۔ آؤٹ پٹ XML جیسے روایتی فارمیٹس کے مقابلے میں کافی زیادہ کمپیکٹ ہے۔

کسی کام کو قدموں میں توڑ کر آسان بنایا جاسکتا ہے۔ منصوبے کو متعدد ہڈوپ ملازمتوں میں توڑنے پر ، اوزی صحیح ترتیب میں ان پر کارروائی شروع ہوتی ہے۔ یہ ورک فلو کا نظم کرتا ہے جیسا کہ ڈی اے جی (ڈائریکٹڈ اکیکلک گراف) نے بتایا ہے اور بروقت مانیٹر کی ضرورت نہیں ہے۔

GIS ، فورم کے اوزار

جغرافیائی نقشوں کے ساتھ کام کرنا ہڈوپ چلانے والے کلسٹروں کے لئے ایک بڑا کام ہے۔ GIS ( جغرافیائی انفارمیشن سسٹم ) ہڈوپ پروجیکٹس کے ٹولز نے ہڈوپ کے ساتھ چلانے کے لئے جغرافیائی معلومات کو سمجھنے کے ل Java جاوا پر مبنی بہترین ٹولز وضع کیے ہیں۔ ڈیٹا بیس نقاط کا استعمال کرتے ہوئے جغرافیائی سوالات کو سنبھال سکتے ہیں اور کوڈ GIS ٹولز کو متعین کرسکتے ہیں۔

سارا ڈیٹا اکٹھا کرنا اس کو ذخیرہ کرنے اور تجزیہ کرنے کے مترادف ہے۔ اپاچی فلیم ایچ ڈی ایف ایس میں ذخیرہ کرنے والی معلومات جمع کرنے کیلئے ‘خصوصی ایجنٹوں’ کو روانہ کرتا ہے۔ جمع کردہ معلومات لاگ فائلیں ، ٹویٹر API ، یا ویب سائٹ سکریپ ہوسکتی ہیں۔ ان اعداد و شمار کو جکڑا ہوا اور تجزیہ کرنے کا نشانہ بنایا جاسکتا ہے۔

Spark

چنگاری اگلی نسل ہے جو ہڈوپ کی طرح کام کرتی ہے جو ڈیٹا کو میموری میں محفوظ کرتی ہے۔ اس کا مقصد اعدام کے ایک عام ماڈل کے ساتھ چلانے اور لکھنے کے ل data ڈیٹا تجزیہ کو تیز تر بنانا ہے۔ یہ منمانے والے آپریٹر گرافوں کو بہتر بنا سکتا ہے اور میموری میں کمپیوٹنگ کی تائید کرسکتا ہے ، جو ہڈوپ جیسے ڈسک پر مبنی انجنوں سے کہیں زیادہ تیزی سے ڈیٹا کے بارے میں استفسار کرتا ہے۔

ہڈوپ پر ایس کیو ایل

جب کلسٹر میں موجود تمام اعداد و شمار کی فوری ایڈہاک استفسار کرنے کی ضرورت ہوتی ہے تو ، ایک نیا ہڈوپ کام لکھا جاسکتا ہے ، لیکن اس میں کچھ وقت لگتا ہے۔ جب پروگرامرز زیادہ بار یہ کام کرنے لگے تو ، وہ ایسے اوزار لے کر آئے جو SQL کی آسان زبان میں لکھے گئے تھے۔ یہ اوزار نتائج تک فوری رسائی کی پیش کش کرتے ہیں۔

اپاچی ڈرل

اپاچی ڈرل متعدد اور متنوع اعداد و شمار کے ذرائع کو کم تاخیر سے متعلق سوالات مہیا کرتی ہے ، بشمول گھوںسلے کوائف۔ ڈرل ، جو گوگل کے ڈیرمیل سے متاثر ہے ، کو 10،000 سرورز تک اسکیل کرنے اور سیکنڈوں میں ڈیٹا کے پیٹا بائٹس سے استفسار کرنے کے لئے ڈیزائن کیا گیا ہے۔

بگ ڈیٹا کو کچلنے کے ل These یہ ضروری ہڈوپ ٹولز ہیں!

ہمارے لئے ایک سوال ہے؟ برائے کرم ان کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔

متعلقہ اشاعت:

ہڈوپ 2.0 سیکھنے کی عملی وجوہات