بگ ڈیٹا اینڈ اینڈ کو سنبھالنے اور ان کے ساتھ کام کرنے کی بات کی جائے تو یہ سب سے زیادہ استعمال شدہ فریم ورک ہے ازگر ڈیٹا انیلیسس ، مشین لرننگ اور بہت کچھ کے لئے سب سے زیادہ استعمال شدہ پروگرامنگ زبانوں میں سے ایک ہے۔ تو ، کیوں ان کو ایک ساتھ استعمال نہیں کرتے؟ یہ کہاں ہے ازگر کے ساتھ چنگاری اس نام سے بہی جانا جاتاہے پی ای اسپارک میں آتا ہےتصویر
ترتیب سرنی C ++ اترتے ہوئے
اپاچی اسپارک ڈویلپر کے لئے اوسطا 110،000 پاؤنڈ تنخواہ کے ساتھ ، اس میں کوئی شک نہیں کہ اسٹرارک انڈسٹری میں بہت استعمال ہوتا ہے۔ کیوجہ سےاس کےامیر لائبریری سیٹ ، ازگر استعمال شدہ ہیںآج ڈیٹا سائنسدانوں اور تجزیات کے ماہرین کی اکثریت۔ اسٹرک کے ساتھ ازگر کو اکٹھا کرنا برادری کے لئے ایک بہت بڑا تحفہ تھا۔ چنگاری سکالا زبان میں تیار کی گئی تھی ، جو جاوا سے بہت ملتی جلتی ہے۔ یہ پروگرام کوڈ کو بائیک کوڈ میں JVM کے لئے چنگاری بگ ڈیٹا پروسیسنگ کے لئے مرتب کرتا ہے۔ ازگر کے ساتھ اسپارک کو سپورٹ کرنے کے لئے ، اپاچی اسپارک کمیونٹی نے پی اسپارک کو جاری کیا۔تب سے، ان دونوں جہانوں کے بہترین امتزاج کے بعد آنے والے فوائد کی وسیع رینج کی وجہ سے پوری انڈسٹری میں سب سے زیادہ مطلوبہ مہارتوں میں سے ایک جانا جاتا ہے۔اس اسپارک کے ساتھ ازگر بلاگ میں ، میں مندرجہ ذیل عنوانات پر گفتگو کروں گا۔
اپاچی چنگاری کا تعارف
اپاچی سپارک ایک کھلا ذریعہ کلسٹر کمپیوٹنگ فریم ورک ہے ریئل ٹائم پروسیسنگ اپاچی سافٹ ویئر فاؤنڈیشن کے ذریعہ تیار کردہ۔ چنگاری ضمیمہ کے ساتھ پورے کلسٹر پروگرامنگ کے لئے ایک انٹرفیس فراہم کرتا ہے ڈیٹا متوازی اور غلطی رواداری
ذیل میں اپاچی سپارک کی کچھ خصوصیات ہیں جو اسے دوسرے فریم ورک پر ایک کنارے دیتی ہیں۔
- رفتار: یہ روایتی بڑے پیمانے پر ڈیٹا پروسیسنگ فریم ورک سے 100x تیز ہے۔
- طاقتور کیچنگ: آسان پروگرامنگ پرت طاقتور کیچنگ اور ڈسک پر استقامت کی صلاحیتوں کو مہی .ا کرتی ہے۔
- تعیناتی: میسوس ، ہڈوپ کے ذریعہ سوت ، یا سپارک کے اپنے کلسٹر منیجر کے ذریعہ تعینات کیا جاسکتا ہے۔
- حقیقی وقت: حقیقی وقتگنتی اور میموری میں کم کمپیوٹنگ کی وجہ سے کم تاخیر۔
- کثیر تعداد: یہ سب سے اہم ہےخصوصیاتاس فریم ورک کے جیسے کہ اس کو اسکالا ، جاوا ، ازگر اور آر میں پروگرام کیا جاسکتا ہے۔
ازگر کیوں جاتے ہیں؟
اگرچہ اسپارک کو اسکیلہ میں ڈیزائن کیا گیا تھا، جو اسے ازگر سے تقریبا 10 گنا زیادہ تیز بناتا ہے ، لیکن اسکیلہ تب ہی تیز ہوتا ہے جب استعمال ہونے والے کور کی تعداد کم ہے . چونکہ آج کل زیادہ تر تجزیہ اور عمل میں بڑی تعداد میں کور کی ضرورت ہوتی ہے ، اسکالہ کا کارکردگی فائدہ اتنا زیادہ نہیں ہے۔
پروگرامرز کے لئے ازگر ہے نسبتا easier آسان ہے سیکھنے کے لئے اس کی ترکیب اور معیاری لائبریریوں کی وجہ سے۔ اس کے علاوہ ، یہ ایک ہے متحرک طور پر ٹائپ شدہ زبان ، اس کا مطلب ہے کہ آر ڈی ڈی متعدد اقسام کی اشیاء رکھ سکتا ہے۔
اگرچہ اسکالا ہے اسپارک ایم ایل لیب اس کے پاس نہیں ہے مشین لرننگ اور این ایل پی کے لئے کافی لائبریریاں اور ٹولز مقاصد. مزید یہ کہ ، اسکالہ میں ڈیٹا وژیوئلائزیشن کا فقدان ہے۔
پی ای اسپارک ٹریننگ | ازگر کے ساتھ اپاچی چنگاری | ایڈوریکا
نئی تازہ کاریوں کے ل our ہمارے یوٹیوب چینل کو سبسکرائب کریں ..!
ازگر کے ساتھ چنگاری (سی ایس پیارک) مرتب کرنا
میں امید کرتا ہوں کہ آپ لوگ جانتے ہوں گے کہ کیسے .تو ، ایک بار جب آپ غیر زپ چنگاری فائل ، انسٹال ہوا یہ اور اس کا راستہ شامل ہے .bashrc فائل ، آپ کو ٹائپ کرنے کی ضرورت ہےماخذ .bashrc
برآمد سپارک ھوم = / عرس / لِب / شادپ / اسپرک -.1..1.-- بِن- ھدوپ .7. export برآمد کریں PATH = $ PATH: /usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7/bin
پیس پارک شیل کھولنے کے ل you آپ کو کمانڈ میں ٹائپ کرنے کی ضرورت ہے./bin/pyspark
صنعت میں چنگاری
اس کی حیرت انگیز خصوصیات جیسے اپاچی چنگاری میموری میں پروسیسنگ ، کثیر الاضلاع اور فاسٹ پروسیسنگ پوری دنیا کی متعدد کمپنیاں مختلف صنعتوں میں مختلف مقاصد کے لئے استعمال ہو رہی ہیں۔
یاہو اپنی خبروں ، ویب صفحات کو اور ذاتی شکل دینے کے ل target بھی اپنی مشین لرننگ کی صلاحیتوں کے ل Ap اپاچی چنگاری کا استعمال کرتا ہے۔ وہ کس طرح کی خبروں کو جاننے کے ل p اسپارک کے ساتھ اسپارک کا استعمال کرتے ہیں - صارف خبروں کو پڑھنے اور اس کی درجہ بندی کرنے میں دلچسپی رکھتے ہیں تاکہ معلوم کریں کہ کس طرح کے صارف خبر کے ہر زمرے کو پڑھنے میں دلچسپی رکھتے ہیں۔
ٹرپ ایڈسائزر اپنے صارفین کے لئے ہوٹل کی بہترین قیمتیں تلاش کرنے کے لئے سیکڑوں ویب سائٹوں کا موازنہ کرکے لاکھوں مسافروں کو مشورے فراہم کرنے کے لئے اپاچی چنگاری کا استعمال کرتا ہے۔ ہوٹلوں کے جائزوں کو پڑھنے کے قابل شکل میں پڑھنے اور اس پر کارروائی کرنے میں جو وقت لیا گیا ہے وہ اپاچی اسپارک کی مدد سے کیا گیا ہے۔
دنیا کا سب سے بڑا ای کامرس پلیٹ فارم علی بابا اپنے ای کامرس پلیٹ فارم پر سیکڑوں پیٹا بائٹس کے ڈیٹا کا تجزیہ کرنے کے لئے دنیا میں اپاچی اسپارک کی کچھ بڑی ملازمتیں چلاتا ہے۔
پی ای اسپارک سپارک کانٹیکسٹ اور ڈیٹا فلو
اسپارک کے ساتھ ازگر کے بارے میں بات کرنا ، آر ڈی ڈی کے ساتھ کام کرنا لائبریری پی 4 جے کے ذریعہ ممکن ہے۔ پائسپرک شیل ازگر API کو مرض کے لئے مربوط کرتا ہے اور اسپارک تناظر کو ابتدا کرتا ہے۔ سیاق و عرض کسی بھی چنگاری کی درخواست کا دل ہے۔
- چنگاری سیاق و سباق داخلی خدمات مرتب کرتا ہے اور چنگاری عمل درآمد کے ماحول سے رابطہ قائم کرتا ہے۔
- ڈرائیور پروگرام میں موجود سپارک کونٹیکسٹ آبجیکٹ تمام تقسیم شدہ عمل کو مربوط کرتا ہے اور وسائل کو مختص کرنے کی اجازت دیتا ہے۔
- کلسٹر مینیجر ایگزیکٹرز کو مہیا کرتے ہیں ، جو منطق کے ساتھ JVM عمل ہیں۔
- SparkContext آبجیکٹ ایگزیکٹوز کو ایپلی کیشن بھیجتی ہے۔
- ہر ایک پھانسی میں SparkContext کام انجام دیتا ہے۔
پی ای اسپارک کے ڈی ڈی استعمال کیس
آئیے ایک استعمال کیس پر ایک نظر ڈالیں KDD’99 Cup (بین الاقوامی علم کی دریافت اور ڈیٹا مائننگ ٹولز مقابلہ).یہاں ہم ڈیٹاسیٹ کا کچھ حصہ لیں گے کیونکہ اصل ڈیٹاسیٹ بہت بڑا ہے
درآمد urllib f = urllib.urlretrieve ('http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz'، 'kddcup.data_10_percent.gz')
آر ڈی ڈی بنانا:
اب ہم اس فائل کو استعمال کرسکتے ہیں ہمارے آر ڈی ڈی بنائیں .
ڈیٹا_فائل = './kddcup.data_10_percent.gz' کچی_ڈیٹا = sc.textFile (ڈیٹا_فائل)
فلٹرنگ:
فرض کریں کہ ہم گننا چاہتے ہیں کہ کتنے نارمل ہیں۔ ہمارے ڈیٹاسیٹ میں ہماری بات چیت ہوتی ہے۔ ہم کر سکتے ہیں فلٹر ہمارے خام_ڈیٹا RDD مندرجہ ذیل ہیں۔
عام_راو_ڈیٹا = خام_ڈیٹا۔فلٹر (لیمبڈا x: 'نارمل۔ x میں)
شمار:
اب ہم کر سکتے ہیں شمار ہمارے پاس نئی آر ڈی ڈی میں کتنے عناصر ہیں۔
وقت درآمد کے وقت سے t0 = وقت () عام_کاؤنٹی = عام_راو_ٹاٹا کوونٹ () tt = وقت () - t0 پرنٹ 'There normal' عام 'بات چیت ہوتی ہے'.فارمٹ (عام_کاؤنٹ) پرنٹ' گنتی {} سیکنڈ 'میں مکمل ہوگئی ۔فارمٹ (گول (ٹی ٹی ، 3))
آؤٹ پٹ:
یہاں 78 'normal78' نارمل 'بات چیت ہو رہی ہے جو گنتی 95.11 seconds سیکنڈ میں مکمل ہوئی
نقشہ سازی:
اس میںمعاملہہم اپنی ڈیٹا فائل کو CSV فارمیٹڈ کے بطور پڑھنا چاہتے ہیں۔ ہم مندرجہ ذیل آر ڈی ڈی میں ہر عنصر پر لیمبڈا فنکشن لگا کر یہ کام کرسکتے ہیں۔ یہاں ہم استعمال کریں گے نقشہ () اور () تبدیلی لے لو۔
پرنٹ امپورٹ سے pprint csv_data = Raw_data.map (lambda x: x.split ('،')) t0 = وقت () ہیڈ_روز = csv_data.take (5) ٹی ٹی = وقت () - t0 پرنٹ 'پارس completed} سیکنڈ میں مکمل ہوا '.فارمٹ (گول (ٹی ٹی ، 3)) پرنٹ (ہیڈ_روز [0])
آؤٹ پٹ:
پارس 1.715 سیکنڈ میں مکمل ہوا [u'0 '، u'tcp'، u'http '، u'SF'، u'181 '، u'5450'، u'0 '، u'0'،. . u'normal. ']
سپلٹنگ:
اب ہم آر ڈی ڈی میں ہر عنصر کو ایک اہم قدر کی جوڑی کے طور پر رکھنا چاہتے ہیں جہاں کلید ٹیگ ہے (جیسے۔ عام ) اور قدر عناصر کی پوری فہرست ہے جو CSV فارمیٹ فائل میں قطار کی نمائندگی کرتی ہے۔ ہم مندرجہ ذیل طور پر آگے بڑھ سکتے ہیں۔ یہاں ہم استعمال کرتے ہیں لائن. سپلٹ () اور نقشہ ()۔
ڈیف پارس_انٹریکشن (لائن): گیارہ = لائن.split ('،') ٹیگ = ہیلمز []१] واپسی (ٹیگ ، الیشم) کی_ سی ایس وی_ڈیٹا = کچی_ڈیٹا ڈاٹ میپ (پارس_انٹریکشن) ہیڈ_رو = کی_ سی ایس وی_ڈیٹا۔ٹیک ()) نشان (ہیڈ_روز [०] )
آؤٹ پٹ: (u'normal. '، [u'0'، u'tcp '، u'http'، u'SF '، u'181'، u'5450 '، u'0'، u'0 '، u' 0.00 '، u'1.00'، .... غیر معمولی. '])
کلک عمل:
یہاں ہم اکٹھا () ایکشن استعمال کرنے جارہے ہیں۔ اس کو RDD کے تمام عناصر میموری میں مل جائیں گے۔ اس وجہ سے ، بڑے آر ڈی ڈی کے ساتھ کام کرتے وقت اسے احتیاط کے ساتھ استعمال کرنا پڑتا ہے۔
t0 = وقت () all_raw_data = Raw_data.collect () tt = time () - t0 پرنٹ 'Data} سیکنڈ'.فارمٹ (گول (ٹی ٹی ، 3)) میں جمع کردہ ڈیٹا
آؤٹ پٹ:
ڈیٹا 17.927 سیکنڈ میں جمع کیا گیا
یقینا That اس سے پہلے کسی اور اقدام کے طور پر ہم نے استعمال کیا ، یقینا. ہر اسپارک ورکر نوڈ جس میں آر ڈی ڈی کا ایک ٹکڑا ہوتا ہے اس کو اپنے حصے کی بازیافت کے ل coord ہم آہنگ ہونا ضروری ہے اور پھر سب کچھ مل کر کم کرنا چاہئے۔
پچھلے تمام امتزاج کو آخری مثال کے طور پر ، ہم سب کو جمع کرنا چاہتے ہیںعام
اہم قدر کے جوڑے کے بطور بات چیت۔
# فائل ڈیٹا_فائل = 'سے ڈیٹا حاصل کریں۔ / kddcup.data_10_percent.gz' کچی_ڈیٹا = sc.textFile (ڈیٹا_فائل) # کلیدی قدر کے جوڑے key_csv_data = Raw_data.map (پارس_interation) میں # پارس کریں # فلٹر نارمل کلیدی تعاملات normal_key_inteferences = key_cs_terters لیمبڈا x: x [0] == 'نارمل۔') # تمام t0 = وقت () all_normal = عام_کی_انٹیگریشنکول منتخب کریں () tt = وقت () - t0 نارمل_کاونٹ = لین (all_normal) پرنٹ 'Data} سیکنڈ میں جمع کردہ ڈیٹا '.فارمٹ (گول (ٹی ٹی ، 3)) پرنٹ' یہاں normal normal 'نارمل' بات چیت ہوتی ہے ۔.فارمٹ (نارمل_کاؤنٹ)
آؤٹ پٹ:
ڈیٹا 12.485 سیکنڈ میں جمع کیا جاتا ہے یہاں 97278 عام بات چیت ہوتی ہے
تو یہ بات ہے ، لوگو!
مجھے امید ہے کہ آپ نے اس چنگاری کو ازگر کے بلاگ سے لطف اندوز کیا ہوگا۔ اگر آپ یہ پڑھ رہے ہیں ، مبارک ہو! اب آپ پیس اسپارک کے لئے نو بکی نہیں ہیں۔ اپنے سسٹمز پر اب اس سادہ سی مثال کو آزمائیں.
اب جب کہ آپ نے پیئ اسپارک کی بنیادی باتوں کو سمجھا ہے ، چیک کریں ایڈوریکا کے ذریعہ ، ایک قابل اعتماد آن لائن سیکھنے والی کمپنی جس کی دنیا بھر میں 250،000 سے زیادہ مطمئن سیکھنے والوں کا نیٹ ورک موجود ہے۔ ایڈورکا کی پائی اسپن کا استعمال کرتے ہوئے ازگر اسپارک سرٹیفیکیشن کی تربیت آپ کو وہ علم اور ہنر مہیا کرنے کے لئے ڈیزائن کیا گیا ہے جو پائیھٹن کا استعمال کرتے ہوئے ایک کامیاب اسپارک ڈویلپر بننے کے لئے درکار ہیں اور آپ کو کلڈیرا ہڈوپ اور اسپارک ڈویلپر سرٹیفیکیشن امتحان (CCA175) کے لئے تیار کریں۔
ہمارے لئے ایک سوال ہے؟ برائے کرم اس کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔