سور میں ایک گہری ڈوبکی



یہ بلاگ پوسٹ سور اور اس کے افعال میں ایک گہری ڈوبکی ہے۔ آپ کو ایک ڈیمو ملے گا کہ آپ جاگو پر کوئی انحصار نہ ہونے کے ساتھ سور کا استعمال کرتے ہوئے ہڈوپ پر کیسے کام کرسکتے ہیں۔

ہڈوپ کی مقبولیت حالیہ دنوں میں بلند ہونے کی ایک سب سے بڑی وجہ یہ بھی ہے کہ پگ اور ہائیو جیسی خصوصیات اس میں سب سے اوپر چلتی ہیں جس سے نان پروگرامروں کو فعالیت ہوتی ہے جو اس سے پہلے جاوا پروگرامرز کے ساتھ خصوصی تھا۔ یہ خصوصیات ہڈوپ پیشہ ور افراد کی بڑھتی ہوئی طلب کا نتیجہ تھیں۔ دوسری خصوصیات جو جاوا کے غیر پس منظر کے ہڈوپ پیشہ ور افراد استعمال کرتے ہیں وہ ہیں فلایوم ، سکوپ ، ایچ بیسی اور اوزی۔





یہ سمجھنے کے لئے کہ آپ کو ہڈوپ سیکھنے کے لئے جاوا کی ضرورت کیوں نہیں ہے ، چیک کریں یہ بلاگ .

1 سور کی تاریخ



آئیے سمجھیں کہ یہ خصوصیات کیسے کام کرتی ہیں۔

ہم سب جانتے ہیں کہ میپریڈو کوڈ لکھنے کے لئے پروگرامنگ کا علم ایک ضرورت ہے۔ لیکن کیا ہوگا اگر میرے پاس ایک ٹول ہے جو کوڈنگ کرسکتا ہے اگر میں صرف تفصیلات فراہم کروں؟ اسی جگہ پر سور اپنی عضلاتی طاقت کو ظاہر کرتا ہے۔ سور پگ لاطینی کے نام سے ایک پلیٹ فارم استعمال کرتا ہے جو جاوا میپریڈوسی محاورے سے پروگرامنگ کو ایک اشارے میں بدل دیتا ہے جس سے آر پی بی ایم ایس سسٹمز کے لئے ایس کیو ایل کی طرح ہی میپریڈس پروگرامنگ اعلی درجے کی ہوتی ہے۔ پگ لاطینی میپریڈوسی میں لکھے گئے کوڈز خود بخود مساوی میپریڈوسی افعال میں بدل جاتے ہیں۔ کیا یہ حیرت انگیز نہیں ہے؟ ایک اور دماغ اڑانے والی حقیقت یہ ہے کہ جاوا کی 200 لائنوں کو تبدیل کرنے کے لئے سور کی صرف 10 لائنوں کی ضرورت ہے۔



سور کی 10 لائنیں = جاوا کی 200 لائنیں

اس کا نہ صرف یہ مطلب ہے کہ جاوا کے غیر پیشہ ور افراد ہڈوپ کا استعمال کرتے ہیں بلکہ اس خاکہ کی بھی گواہی دیتے ہیں کہ سور کو مساوی تعداد میں تکنیکی ڈویلپرز استعمال کرتے ہیں۔

مزید برآں ، اگر آپ اپنا میپریڈوس کوڈ لکھنا چاہتے ہیں تو ، آپ یہ کام پرل ، ازگر ، روبی یا سی جیسے کسی بھی زبان میں کرسکتے ہیں۔ کچھ بنیادی کاروائیاں جو ہم کسی بھی ڈیٹاسیٹ پر سور کا استعمال کرکے انجام دے سکتے ہیں وہ گروپ ، شامل ، فلٹر اور ترتیب دیں . یہ آپریشنز ساخت ، غیر ساخت اور نیم ساختہ اعداد و شمار پر انجام دیئے جاسکتے ہیں۔ وہ بہت بڑے ڈیٹا سیٹوں پر میپریڈوس ملازمتیں بنانے اور اس پر عمل درآمد کے ل ad ایڈہاک طریقہ فراہم کرتے ہیں۔

اگلا ، ہم Hive کو سمجھیں۔ یہ اوپن سورس ، پیٹا بائٹ اسکیل ڈیٹا گودام فریم ورک ہے جو ڈیٹا کے خلاصے ، استفسار اور تجزیہ کے لئے ہڈوپ پر مبنی ہے۔ Hive ہڈوپ کے لئے ایس کیو ایل نما انٹرفیس مہیا کرتا ہے۔ آپ ہائڈوپ پر فائلوں کو پڑھنے اور لکھنے کے لئے Hive کا استعمال کرسکتے ہیں اور BI ٹول سے اپنی رپورٹس چلا سکتے ہیں۔ ہڈوپ کی کچھ مخصوص فعالیت یہ ہیں:

لاجسٹک رجعت ازگر مثال کوڈ

میں آپ کو کلک اسٹریم ڈیٹا سیٹ پر پگ کا استعمال کرتے ہوئے ایک ڈیمو دکھاتا ہوں
ہم اس کلک اسٹریم ڈیٹا کا استعمال کریں گے اور ٹرانسفارمیشن ، جوائن اور گروپنگ انجام دیں گے۔

کلک اسٹریم ماؤس کلکس کا ایک سلسلہ ہے جو صارف کے ذریعہ انٹرنیٹ تک رسائی حاصل کرنے کے دوران کیا جاتا ہے ، خاص طور پر بطور مارکیٹنگ کے مقاصد کے لئے کسی شخص کے مفادات کا اندازہ کرنے کے لئے۔ یہ بنیادی طور پر آن لائن خوردہ ویب سائٹیں جیسے فلپ کارٹ اور ایمیزون کے ذریعہ استعمال کیا جاتا ہے جو سفارشات پیدا کرنے کے ل your آپ کی سرگرمیوں کو ٹریک کرتے ہیں۔ کلک اسٹریم ڈیٹا سیٹ جس کا ہم نے استعمال کیا ہے اس میں درج ذیل فیلڈز ہیں:

1. ویب کی درخواست کے ذریعہ تعاون کی زبان کی قسم

2. براؤزر کی قسم

3. کنکشن کی قسم

4. کنٹری ID

5. ٹائم سٹیمپ

پوسٹ گریجویٹ ڈپلوما بمقابلہ ماسٹر ڈگری

6. یو آر ایل

7. صارف کی حیثیت

8. صارف کی قسم

یہ مناسب فیلڈز کے ساتھ اس طرح نظر آئے گا۔

ذیل میں براؤزر کی اقسام کی فہرست ہے جو کسی خاص ویب سائٹ پر سرفنگ کرتے وقت مختلف افراد استعمال کرتے ہیں۔ اس فہرست میں انٹرنیٹ براؤزر جیسے گوگل براؤزر ، گوگل کروم ، لنکس اور شامل ہیں۔

انٹرنیٹ کنکشن کی قسم لین / موڈیم / وائی فائی ہوسکتی ہے۔ مکمل فہرست کے لئے نیچے دی گئی تصویر دیکھیں:

اگلی تصویر میں ، آپ کو ان ممالک کی فہرست مل جائے گی جہاں سے ویب سائٹ سامعین کو اپنی شناخت کے ساتھ راغب کرتی ہے۔

ایک بار جب ہم سارے ڈیٹا سیٹ اکٹھے کرلیں ، ہمیں پگ کا گرنٹ شیل لانچ کرنا ہے ، جو پگ کمانڈ کو چلانے کے لئے شروع کیا گیا ہے۔

گرنٹ شیل لانچ کرنے پر ہم سب سے پہلے کام کرنا ہے وہ ہے کلک کے اعداد و شمار کو سور کے رشتہ میں لوڈ کرنا۔ ایک رشتہ ایک میز کے سوا کچھ نہیں ہوتا۔ ذیل میں وہ کمانڈ ہے جو ہم ایچ ڈی ایف ایس میں رہنے والی فائل کو سور کے رشتہ پر لوڈ کرنے کے لئے استعمال کرتے ہیں۔

ہم کلک_سٹریم بیان کرتے ہوئے کمانڈ کے ذریعہ رشتہ کے اسکیما کی تصدیق کرسکتے ہیں۔

ہمیں اب ریفرنس فائلیں شامل کرنے کی ضرورت ہے جس میں ان ممالک کی فہرست اور ان کی شناخت کے ساتھ مختلف براؤزر کی اقسام کے بارے میں تفصیلات ہوں گی۔

ہمارے پاس اب دو ریفرنس فائلیں موجود ہیں ، لیکن انھیں ریلیشن شپ بنانے کیلئے مربوط ہونے کی ضرورت ہے۔
ہم کنکشن کی قسم کی نشاندہی کرنے کے لئے ایک कनेक्शन_ ریف کمانڈ چلاتے ہیں۔

ازگر میں ایک نمبر کو کیسے تبدیل کریں

اب جب کہ ہمارا ورکنگ کنکشن اور قائم رشتہ ہے ، ہم آپ کو دکھائیں گے کہ ہم اس ڈیٹا کو کیسے تبدیل کر سکتے ہیں۔
کلک اسٹریم میں ہر ریکارڈ کے ل we ، ہم ایک مختلف شکل میں ایک نیا ریکارڈ تیار کریں گے ، یعنی تبدیل شدہ ڈیٹا۔ نئے فارمیٹ میں ٹائم اسٹیمپ ، براؤزر کی قسم ، کنٹری آئی ڈی اور کچھ اور جیسے فیلڈ شامل ہوں گے۔

ہم بڑے ڈیٹا کو تراشنے کے لئے فلٹر آپریشن کرسکتے ہیں۔ صارفین کی مختلف اقسام ایڈمنسٹریٹر ، مہمان یا بوٹس ہیں۔ ہمارے ڈیمو میں ، میں نے مہمانوں کے لئے فہرست کو فلٹر کیا ہے۔

اگر آپ کو یاد ہے تو ، کنٹری آئی ڈی کلک اسٹریم میں موجود ہے اور ہم نے ملکوں کے ناموں پر مشتمل ایک کنٹری ریف فائل کو اپنی شناختوں کے ساتھ لوڈ کیا ہے۔ اس طرح ہم دونوں فائلوں کے مابین جوائن آپریشن کرسکتے ہیں اور بصیرت حاصل کرنے کیلئے ڈیٹا کو ضم کرسکتے ہیں۔

اگر ہم ڈیٹا میں شامل ہوگئے ہیں ، تو پھر ہم مختلف ممالک کا پتہ لگاسکتے ہیں جہاں سے صارفین گروپنگ کے ذریعہ موجود ہیں۔ ایک بار جب ہمارے پاس یہ ڈیٹا ہوجاتا ہے تو ، ہم کسی خاص ملک سے صارفین کی تعداد کی نشاندہی کرنے کے لئے گنتی کا عمل انجام دے سکتے ہیں۔

بگ ڈیٹا سے بصیرت حاصل کرنا کوئی راکٹ سائنس نہیں ہے۔ یہ صرف ان میں سے کچھ بہت سی خصوصیات ہیں جن کو میں نے نافذ کیا ہے اور Hive، Hbase، Oozie، Sqoop اور Flume جیسے ٹولز کے ساتھ ابھی تک اعداد و شمار کا خزانہ باقی ہے۔ لہذا آپ میں سے جو خود کو ہڈوپ سیکھنے سے باز آرہے ہیں ، اب وقت آ گیا ہے کہ اس کو تبدیل کیا جائے۔

ہمارے لئے ایک سوال ہے؟ برائے کرم ان کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔

متعلقہ اشاعت:

R اور ہڈوپ کو ایک ساتھ استعمال کرنے کے 4 طریقے

اپاچی ہڈوپ کے لئے کلڈیوڈرا مصدقہ ڈویلپر کے بارے میں سب کچھ