اس بلاگ پوسٹ میں ، آئیے مثال کے ساتھ اعلی Hive کے احکامات پر تبادلہ خیال کریں۔ ان Hive احکامات کی بنیاد رکھنا بہت ضروری ہے .
ایڈورکا 2019 ٹیک کیریئر گائیڈ ختم! گائیڈ میں مشہور ترین کام کے کردار ، سیکھنے کے عین راستے ، صنعت کے نقطہ نظر اور بہت کچھ۔ ڈاؤن لوڈ کریں ابھی.Hive کیا ہے؟
اپاچی Hive ایک ڈیٹا گودام نظام ہے جو ہڈوپ پر کام کرنے کے لئے بنایا گیا ہے۔ یہ تقسیم شدہ اسٹوریج میں مقیم بڑے ڈیٹاسیٹس کو تلاش کرنے اور ان کا انتظام کرنے کے لئے مستعمل ہے۔ اپاچی ہڈوپ کا اوپن سورس پروجیکٹ بننے سے پہلے ہیف کی شروعات فیس بک میں ہوئی تھی۔ یہ ہڈوپ میں موجود ڈیٹا پر اسٹرکچر کو پروجیکٹ کرنے اور اس کوائف کے بارے میں استفسار کرنے کے لئے ایک میکانزم فراہم کرتا ہے جس کو ایس کیو ایل کی طرح کی زبان استعمال کرتے ہوئے HiveQL (HQL) کہا جاتا ہے۔
Hive استعمال کیا جاتا ہے کیونکہ Hive میں جدولیں رشتہ دار ڈیٹا بیس میں جدولوں کی طرح ہیں۔ اگر آپ ایس کیو ایل سے واقف ہیں تو ، یہ کیک واک ہے۔ بہت سے صارفین بیک وقت Hive-QL استعمال کرکے ڈیٹا سے استفسار کرسکتے ہیں۔
HQL کیا ہے؟
Hive Hive-QL (HQL) کہلائے جانے والے بڑے ڈیٹاسیٹس کو تلاش کرنے اور ان کا نظم و نسق کرنے کے لئے ایک سادہ ایس کیو ایل نما سوال کی زبان کی وضاحت کرتا ہے۔ اگر آپ SQL زبان سے واقف ہیں تو یہ استعمال کرنا آسان ہے۔ Hive پروگراموں کو جو زبان سے واقف ہیں اپنی مرضی کے مطابق میپریڈوش فریم ورک کو مزید نفیس تجزیہ کرنے کے ل allows لکھ سکتے ہیں۔
ایک سرنی جاوا اسکرپٹ کی لمبائی
چھتے کے استعمال:
1. اپاچی Hive تقسیم اسٹوریج
2. Hive آسان اعداد و شمار کے اقتباس / ٹرانسفارم / بوجھ (ETL) کو چالو کرنے کے ل tools ٹولز مہیا کرتا ہے
3. یہ مختلف اعداد و شمار کی شکلوں پر ساخت فراہم کرتا ہے۔
H. چھتے کا استعمال کرتے ہوئے ، ہم ہڈوپ ڈسٹری بیوٹڈ فائل سسٹم (ایچ ڈی ایف ایس میں رہائش پذیر بڑے ڈیٹاسیٹس کو تلاش کرنے اور ان کا انتظام کرنے کے لئے استعمال ہوتا ہے) میں یا اپاچی ایچ بیسی جیسے دیگر ڈیٹا اسٹوریج سسٹم میں موجود فائلوں تک رسائی حاصل کرسکتے ہیں۔
چھتے کی حدود:
& بیل چھتے آن لائن ٹرانزیکشن پروسیسنگ (او ایل ٹی پی) کے لئے ڈیزائن نہیں کیا گیا ہے ، یہ صرف آن لائن تجزیاتی پروسیسنگ کے لئے استعمال ہوتا ہے۔
اور بیل ہیو ڈیٹا کو اوور رائٹنگ یا گرفتاری کی حمایت کرتا ہے ، لیکن اپ ڈیٹ اور ڈیلیٹس کو نہیں۔
& بیل میں Hive ، ذیلی سوالات معاون نہیں ہیں۔
چھتے کو سور کے باوجود کیوں استعمال کیا جاتا ہے؟
مندرجہ ذیل وجوہات ہیں جو سور کی دستیابی کے باوجود Hive کے استعمال کی جاتی ہیں۔
- Hive-QL ایک اعلانیہ زبان کی لائن SQL ہے ، PigLatin ڈیٹا فلو کی زبان ہے۔
- پگ: بہت بڑے ڈیٹاسیٹس کی تلاش کے ل a ڈیٹا فلو کی زبان اور ماحول۔
- چھتہ: ایک تقسیم شدہ ڈیٹا گودام۔
چھتے کے اجزاء:
میٹا اسٹور:
Hive ایک Hive میٹاسٹور میں Hive میزوں کی اسکیما اسٹور کرتی ہے۔ میٹاسٹور کا استعمال میزوں اور پارٹیشنوں کے بارے میں تمام معلومات کو رکھنے کے لئے کیا جاتا ہے جو گودام میں ہیں۔ پہلے سے طے شدہ طور پر ، میٹاسٹور اسی عمل میں چلتا ہے جس طرح Hive سروس ہے اور ڈیفالٹ میٹاسٹور DerBy ڈیٹا بیس ہے۔
SerDe:
سیریلائزر ، ڈیسیریلائزر ریکارڈ میں کارروائی کرنے کے طریقہ کار میں چھتے کی ہدایت دیتا ہے۔
Hive احکامات:
ڈیٹا ڈیفینیشن لینگویج (DDL)
ڈی ڈی ایل کے بیانات کو ڈیٹا بیس میں جدولوں اور دیگر اشیاء کو بنانے اور ان میں ترمیم کرنے کے لئے استعمال کیا جاتا ہے۔
ڈی ڈی ایل کمانڈ | فنکشن |
بنانا | اس کا استعمال ٹیبل یا ڈیٹا بیس بنانے کے لئے کیا جاتا ہے |
دکھائیں | یہ ڈیٹا بیس ، ٹیبل ، پراپرٹیز ، وغیرہ کو ظاہر کرنے کے لئے استعمال ہوتا ہے |
عمر | اس کا استعمال موجودہ ٹیبل میں تبدیلی کرنے کے لئے کیا جاتا ہے |
وضاحت کریں | اس میں ٹیبل کالم کی وضاحت کی گئی ہے |
ٹرنکائٹ | میز کی قطاروں کو مستقل طور پر چھوٹا اور حذف کرنے کے لئے استعمال کیا جاتا ہے |
ختم کریں | ٹیبل ڈیٹا کو حذف کرتا ہے ، لیکن ، بحال کیا جاسکتا ہے |
کمان sudo Hive دے کر Hive شیل پر جائیں اور کمانڈ داخل کریں 'بنانا ڈیٹا بیس نام> ’ Hive میں نیا ڈیٹا بیس بنانے کے لئے.
Hive کے گودام میں ڈیٹا بیس کی فہرست کے ل To ، کمانڈ درج کریں ‘ ڈیٹا بیس دکھائیں ’۔
ڈیٹا بیس Hive کے گودام کے پہلے سے طے شدہ جگہ میں تخلیق کرتا ہے۔ کلوڈیرہ میں ، / صارف / چھتے / گودام میں Hive ڈیٹا بیس اسٹور۔
ڈیٹا بیس کو استعمال کرنے کا حکم ہے استعمال کریں
لوکل کمانڈ سے کاپی کا استعمال کرکے ان پٹ ڈیٹا کو مقامی سے ایچ ڈی ایف ایس میں کاپی کریں۔
جب ہم چھتے میں ایک میز بناتے ہیں تو ، یہ چھتے کے گودام کے پہلے سے طے شدہ جگہ میں تخلیق کرتا ہے۔ - '/ صارف / چھتے / گودام' ، ٹیبل کی تشکیل کے بعد ہم ڈیٹا کو ایچ ڈی ایف ایس سے چھتے کی میز پر منتقل کرسکتے ہیں۔
مندرجہ ذیل کمانڈ نے ایک میز تیار کی ہے جس میں '/user/hive/warehouse/retail.db' کی جگہ موجود ہے۔
نوٹ : ریٹیل.db ایک ڈیٹا بیس ہے جو Hive کے گودام میں تیار کیا گیا ہے۔
بیان کریں ٹیبل کی اسکیما کے بارے میں معلومات فراہم کرتا ہے۔
ڈیٹا ہیرا پھیری کی زبان (DML)
ڈی ایم ایل کے بیانات کو ڈیٹا بیس میں ڈیٹا کو بازیافت ، ذخیرہ کرنے ، ترمیم کرنے ، حذف کرنے ، داخل کرنے اور اپ ڈیٹ کرنے کے لئے استعمال کیا جاتا ہے۔
مثال :
لوڈ ، داخل بیانات۔
نحو:
ٹیبل میں لاگ ان اعداد و شمار [ٹیبل نام]
لوڈ آپریشن کا استعمال ڈیٹا کو اسی طرح کے Hive ٹیبل میں منتقل کرنے کے لئے کیا جاتا ہے۔ اگر کلیدی لفظ ہے مقامی بیان کیا گیا ہے ، پھر لوڈ کمانڈ میں مقامی فائل سسٹم کا راستہ ملے گا۔ اگر کلیدی لفظ کی وضاحت نہیں کی گئی ہے تو ہمیں فائل کا ایچ ڈی ایف ایس راستہ استعمال کرنا ہوگا۔
یہاں LOAD ڈیٹا LOCAL کمانڈ کی کچھ مثالیں ہیں
Hive ٹیبل میں ڈیٹا کو لوڈ کرنے کے بعد ہم ڈیٹا ہیرا پھیری کے بیانات کا اطلاق کرسکتے ہیں یا اعداد و شمار کو بازیافت کرتے ہیں۔
ریکارڈوں کی گنتی کی مثال:
گنتی کی مجموعی تقریب کا استعمال ٹیبل میں ریکارڈوں کی کل تعداد گننے میں کیا جاتا ہے۔
’بیرونی بنائیں‘ ٹیبل:
بیرونی تخلیق کریں مطلوبہ الفاظ کا استعمال ٹیبل بنانے کے لئے کیا جاتا ہے اور وہ مقام مہیا کرتا ہے جہاں ٹیبل تیار کرے گا ، تاکہ Hive اس ٹیبل کیلئے پہلے سے طے شدہ جگہ استعمال نہ کرے۔ ایک خارجی ٹیبل ڈیفالٹ اسٹوریج کے بجائے کسی بھی ایچ ڈی ایف ایس مقام کی نشاندہی کرتا ہے۔
کمانڈ داخل کریں:
داخل کریں کمانڈ ڈیٹا Hive ٹیبل کو لوڈ کرنے کے لئے استعمال ہوتا ہے۔ داخل کرتا ہے ایک میز یا ایک تقسیم کرنے کے لئے کیا جا سکتا ہے.
& بیل INSERT OVERWRITE کا استعمال ٹیبل یا پارٹیشن میں موجود ڈیٹا کو اوور رائٹ کرنے کے لئے کیا جاتا ہے۔
& بیل INSERT INTO کو ٹیبل میں موجود ڈیٹا میں ڈیٹا کو شامل کرنے کے لئے استعمال کیا جاتا ہے۔ (نوٹ: INSERT INTO نحو 0.8 ورژن سے کام کر رہا ہے)
مثال کے طور پر ’پارٹیشنڈ بائی‘ اور ’کلسٹرڈ بہ بہ’ کمانڈ:
بٹھا ہوا ‘ٹیبل کو پارٹیشن میں تقسیم کرنے کے لئے استعمال ہوتا ہے اور‘ کا استعمال کرکے بالٹیوں میں تقسیم کیا جاسکتا ہے۔ کلسٹرڈ بذریعہ ' کمانڈ.
جب ہم ڈیٹا Hive پھینکنے میں غلطیاں داخل کرتے ہیں تو ، متحرک پارٹیشن موڈ سخت اور متحرک پارٹیشن فعال نہیں ہوتا ہے (بذریعہ) جیف پر ڈریس ہیڈ ویب سائٹ ). لہذا ہمیں مندرجہ ذیل پیرامیٹرز کو Hive شیل میں ترتیب دینے کی ضرورت ہے۔
hive.exec.dynamic.partition = true. سیٹ کریں
متحرک پارٹیشنز کو اہل بنانے کیلئے ، بطور ڈیفالٹ ، یہ غلط ہے
hive.exec.dynamic.partition.mode = غیر سخت
تقسیم زمرے کے ذریعہ کی جاتی ہے اور اسے ‘کلسٹرڈ بائی’ کمانڈ کا استعمال کرکے بالٹیوں میں تقسیم کیا جاسکتا ہے۔
’ڈراپ ٹیبل‘ کے بیان سے ٹیبل کیلئے موجود ڈیٹا اور میٹا ڈیٹا حذف ہوجاتا ہے۔ بیرونی جدولوں کی صورت میں ، صرف میٹا ڈیٹا حذف ہوتا ہے۔
’ڈراپ ٹیبل‘ کے بیان سے ٹیبل کیلئے موجود ڈیٹا اور میٹا ڈیٹا حذف ہوجاتا ہے۔ بیرونی جدولوں کی صورت میں ، صرف میٹا ڈیٹا حذف ہوتا ہے۔
اعداد و شمار مقامی ان پاتھ کو لوڈ کریں۔ 'aru.txt' ٹیبل ٹیبل نام میں اور پھر ہم ٹیبل नेम کمانڈ سے منتخب کریں * کا استعمال کرکے ملازم 1 ٹیبل کو چیک کرتے ہیں۔
منتخب کر کے ٹیبل میں ریکارڈوں کی تعداد گننے کے ل. شمار(*) txnrecords سے
جمع:
ٹیبل نام سے گنتی (DISTINCT زمرہ) منتخب کریں
یہ کمانڈ ’کیٹ‘ ٹیبل کے مختلف زمرے کو شمار کرے گی۔ یہاں 3 مختلف قسمیں ہیں۔
فرض کریں کہ یہاں ایک اور ٹیبل کیٹ موجود ہے جہاں f1 زمرے کا فیلڈ کا نام ہے۔
گروہ بندی:
گروپ کمانڈ ایک یا زیادہ کالموں کے ذریعہ رزلٹ سیٹ کو گروپ کرنے کے لئے استعمال ہوتا ہے۔
زمرہ کے لحاظ سے txt ریکارڈ گروپ سے زمرہ ، رقم (رقم) منتخب کریں
یہ ایک ہی زمرے کی مقدار کا حساب لگاتا ہے۔
نتیجہ ایک ٹیبل میں دوسرے ٹیبل میں محفوظ ہے۔
پرانے ٹیبل نام سے منتخب کریں بطور ٹیبل نیا ٹیبل نام تشکیل دیں
کمانڈ میں شامل ہوں:
یہاں نام پر ایک اور میز تیار کی گئی ہے ‘میلز’
آپریشن میں شامل ہوں :
جوائن آپریشن ہر ایک کے لئے مشترکہ اقدار کا استعمال کرکے دو جدولوں سے کھیتوں کو جوڑنے کے لئے انجام دیا جاتا ہے۔
بائیں بازو میں شامل ہوں :
جدول A اور B کیلئے بائیں بیرونی جوائن (یا محض بائیں جوڑ) کا نتیجہ ہمیشہ 'بائیں' ٹیبل (A) کے تمام ریکارڈ پر مشتمل ہوتا ہے ، چاہے جوائنٹ-کنڈیشن کو 'دائیں' جدول میں کوئی مماثل ریکارڈ نہ ملے۔ (بی)
دائیں بیرونی شمولیت :
دائیں بیرونی جوڑ (یا دائیں جوڑنا) بائیں بازو کے جوڑ کو قریب سے مماثلت رکھتا ہے ، سوائے اس کے کہ ٹیبلز کے الٹ ہو۔ 'دائیں' ٹیبل (B) کی ہر صف کم از کم ایک بار شامل ٹیبل میں نمودار ہوگی۔
مکمل شمولیت :
شامل کردہ ٹیبل میں دونوں ٹیبلز کے تمام ریکارڈ ہوں گے ، اور دونوں طرف سے میچوں کے گم ہونے کے لئے NULLs پُر کریں گے۔
ایک بار چھتے کے ساتھ کیا کیا ہم چھتے کے خول سے باہر نکلنے کے لئے چھوڑ دیں کمانڈ استعمال کر سکتے ہیں۔
چھتے بڑی پہیلی کا صرف ایک حصہ ہے جسے بگ ڈیٹا اور ہڈوپ کہتے ہیں۔ ہڈوپ محض Hive سے کہیں زیادہ ہے۔ ہڈوپ میں آپ کو کیا دوسری مہارت حاصل کرنا چاہئے یہ جاننے کے لئے نیچے کلک کریں۔
ہمارے لئے ایک سوال ہے؟ برائے کرم اس کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔
متعلقہ اشاعت:
ڈیٹا ٹریننگ کے 7 طریقے آپ کی تنظیم کو تبدیل کرسکتے ہیں