ایک ایسی دنیا میں ، جس میں ایک دن میں 2.5 کوئنٹیلین بائٹس تیار اور استعمال ہوتا ہے ، تنظیمیں زیادہ سے زیادہ کارکردگی کو حاصل کرنے کے لئے اعداد و شمار کو تبدیل کرنے اور یکجا کرنے کے لئے نئے طریقے تلاش کرنے کی پابند ہیں۔ ڈیٹا کو یکجا کرنے کا ایک ایسا ہی طریقہ ہے جھاڑی میں ڈیٹا ملاوٹ .
اب ، چونکہ یہ کسی بھی تنظیم کے ڈیٹا سائیکل میں اس طرح کے ایک اہم مقصد کی حیثیت رکھتا ہے ، لہذا یہ زیادہ تر میں ایک انتہائی ضروری ماڈیول بناتا ہے . اس بلاگ میں ، ہم مندرجہ ذیل تصورات پر تبادلہ خیال کریں گے:
- آپ کو جھاڑیوں میں ڈیٹا بلینڈنگ کی ضرورت کیوں ہے؟
- جھاڑو میں ڈیٹا ملاوٹ کیا ہے؟
- ڈیٹا شمولیت سے یہ کس طرح مختلف ہے؟
- ملاوٹ کے لئے شامل ہونے کو کب متبادل بنائیں؟
- جھاڑیوں میں اپنے ڈیٹا کو ملاوٹ
- جھاڑی میں ڈیٹا بلینڈنگ کی حدود
آپ کو ٹیڑھی میں ڈیٹا بلینڈنگ کی ضرورت کیوں ہے؟
فرض کریں ، آپ ایک ہیں ڈویلپر ٹیبل جس کے پاس سیلز فورس میں ٹرانزیکشنل ڈیٹا اور ایکسیس میں کوٹا ڈیٹا موجود ہے۔ آپ جو ڈیٹا اکٹھا کرنا چاہتے ہیں وہ مختلف ڈیٹا بیس میں محفوظ کیا جاتا ہے ، اور ہر ٹیبل میں پکڑے گئے ڈیٹا کی گرانولریٹی دو اعداد و شمار کے ذرائع میں مختلف ہے ، لہذا ڈیٹا کو ملاوٹ اس ڈیٹا کو اکٹھا کرنے کا بہترین طریقہ ہے۔
ڈیٹا بلینڈنگ مندرجہ ذیل شرائط کے تحت کارآمد ہے۔
آپ مختلف ڈیٹا بیس کے ڈیٹا کو اکٹھا کرنا چاہتے ہیں جو کراس ڈیٹا بیس کے ذریعہ تعاون یافتہ نہیں ہیں۔
کراس ڈیٹا بیس میں شامل ہونے سے کیوب (مثال کے طور پر اوریکل ایسبیس) یا کچھ ایکسٹریکٹ صرف کنیکشن (مثال کے طور پر ، گوگل تجزیات) سے رابطے کی حمایت نہیں کی جاتی ہے۔ اس صورت میں ، ان اعداد و شمار کے ل individual انفرادی اعداد و شمار کے ذرائع مرتب کریں جس کا آپ تجزیہ کرنا چاہتے ہیں ، اور پھر کسی ایک شیٹ پر ڈیٹا کے ذرائع کو جمع کرنے کے لئے ڈیٹا بلینڈنگ کا استعمال کریں۔
ڈیٹا تفصیل کے مختلف درجوں پر ہے۔
کبھی کبھی ایک ڈیٹا سیٹ مختلف استعمال کرکے ڈیٹا کو گرفت میں لے جاتا ہے تفصیل کی سطح یعنی دوسرے ڈیٹا سیٹ سے زیادہ یا کم گرانولریٹی۔
مثال کے طور پر ، فرض کریں کہ آپ لین دین اور کوٹے کے اعداد و شمار کا تجزیہ کررہے ہیں۔ ٹرانزیکشنل ڈیٹا تمام لین دین کو گرفت میں لے سکتا ہے۔ تاہم ، کوٹا ڈیٹا کوارٹر لیول پر مجموعی طور پر لین دین کرسکتا ہے۔ چونکہ ہر اعداد و شمار کے سیٹ میں مختلف سطحوں پر لین دین کی اقدار پر قبضہ کیا جاتا ہے ، لہذا آپ کو ڈیٹا کو جوڑنے کیلئے ڈیٹا بلینڈنگ کا استعمال کرنا چاہئے۔
جھاڑو میں ڈیٹا ملاوٹ کیا ہے؟
ڈیٹا بلینڈنگ میں ایک بہت ہی طاقتور خصوصیت ہے بورڈ . یہ اس وقت استعمال ہوتا ہے جب متعدد اعداد و شمار کے ذرائع میں متعلقہ اعداد و شمار موجود ہوں ، جس کا آپ ایک ہی نظریہ میں مل کر تجزیہ کرنا چاہتے ہیں۔ یہ اعداد و شمار کو یکجا کرنے کا ایک طریقہ ہے جو کسی دوسرے ڈیٹا سورس سے ڈیٹا کے کالموں کے ساتھ ایک ڈیٹا سورس سے ڈیٹا کے ٹیبل کی تکمیل کرتا ہے۔
عام طور پر ، آپ اس طرح کے اعداد و شمار کو جمع کرنے کے لئے شامل ہوجاتے ہیں ، لیکن اعداد و شمار کی قسم اور اس کی گرانولیٹی جیسے عوامل پر منحصر ہوتا ہے جب ڈیٹا بلینڈنگ استعمال کرنا بہتر ہوتا ہے۔
ڈیٹا شامل ہونے سے یہ کس طرح مختلف ہے؟
ڈیٹا بلینڈنگ روایتی بائیں جوڑ کو جوڑتا ہے۔ دونوں کے مابین بنیادی فرق یہ ہے کب شمولیت اجتماع کے سلسلے میں انجام دی جاتی ہے۔
چھوڑیں شامل
جب آپ ڈیٹا کو یکجا کرنے کے لئے بائیں بازو کا استعمال کرتے ہیں تو ، ڈیٹا بیس میں ایک استفسار بھیجا جاتا ہے جہاں شمولیت کی جاتی ہے۔ بائیں جوڑ کا استعمال کرنے سے بائیں جدول کی تمام قطاریں اور دائیں جدول سے کسی بھی صف کی واپسی ہوتی ہے جس میں بائیں جدول میں اسی طرح کی صف کا میچ ہوتا ہے۔ اس میں شامل ہونے کے نتائج پھر بھجوا دیئے جاتے ہیں اور انھیں مجموعی طور پر ٹیلاؤ کے ذریعہ بھیج دیا جاتا ہے۔
مثال کے طور پر ، فرض کریں کہ آپ کے پاس مندرجہ ذیل ٹیبل موجود ہیں۔ اگر عام کالم ہیں صارف کی شناخت ، بائیں جوڑ سے بائیں جدول کے تمام اعداد و شمار کے ساتھ ساتھ دائیں ٹیبل سے تمام اعداد و شمار بھی شامل ہوتے ہیں کیونکہ ہر صف کے بائیں جدول میں ایک برابر صف کا میچ ہوتا ہے۔
ڈیٹا ملاوٹ
جب آپ ڈیٹا کو یکجا کرنے کے لئے ڈیٹا بلینڈنگ کا استعمال کرتے ہیں تو ، ہر ڈیٹا سورس کے لئے ڈیٹا بیس میں ایک استفسار بھیجا جاتا ہے جو شیٹ پر استعمال ہوتا ہے۔ مجموعی ڈیٹا سمیت سوالات کے نتائج ، بھجوا دیئے گئے ہیں جن کی مدد سے اکٹھا کیا گیا ہے۔ نقطہ نظر بنیادی اعداد و شمار کے ذریعہ ، بائیں جدول ، اور ثانوی اعداد و شمار کے ذریعہ ، دائیں میز سے منسلک کھیتوں کی جہت کی بنیاد پر تمام قطاروں کا استعمال کرتا ہے۔
ایک صف کو ترتیب دیں سی ++
اجتماعی اقدار کو تبدیل کرتے ہوئے ، آپ مرکب میں ثانوی ڈیٹا سورس سے مختلف یا اضافی قطاروں کو شامل کرنے کے لئے لنکنگ فیلڈ کو تبدیل کرسکتے ہیں یا مزید منسلک کھیتوں کو شامل کرسکتے ہیں۔
مثال کے طور پر ، فرض کریں کہ آپ کے پاس مندرجہ ذیل ٹیبل موجود ہیں۔ اگر لنکنگ فیلڈز ہیں صارف کی شناخت دونوں جدولوں میں آپ کے اعداد و شمار کو ملاوٹ کرنے سے بائیں ٹیبل کا سارا ڈیٹا لیا جاتا ہے ، اور دائیں ٹیبل کے اعداد و شمار کے ساتھ بائیں میز کی تکمیل ہوتی ہے۔ اس صورت میں ، تمام اقدار درج ذیل کی وجہ سے نتیجے میں آنے والے جدول کا حصہ نہیں ہوسکتی ہیں۔
- بائیں میز کی ایک قطار میں دائیں ٹیبل میں ایک برابر قطار مماثلت نہیں ہوتی ہے ، جیسا کہ منسوخ قیمت سے ظاہر ہوتا ہے۔
- دائیں جدول میں قطاروں میں متعدد متعلقہ اقدار ہیں ، جیسا کہ نجمہ (*) نے اشارہ کیا ہے۔
فرض کریں کہ آپ کے پاس اوپر جیسا ٹیبل موجود ہے ، لیکن ثانوی ڈیٹا سورس میں ایک نیا فیلڈ موجود ہے مقاصد . ایک بار پھر ، اگر لنکنگ فیلڈ ہے صارف کی شناخت ، آپ کے ڈیٹا کو ملاوٹ کرنے سے بائیں جدول کا سارا ڈیٹا لیا جاتا ہے ، اور اسے دائیں ٹیبل کے اعداد و شمار سے پورا کیا جاتا ہے۔ اس معاملے میں ، آپ کو مندرجہ ذیل کے علاوہ پچھلی مثال میں بھی اسی قدر قیمت اور ستارے نظر آتے ہیں:
- کیونکہ مقاصد فیلڈ ایک پیمانہ ہے ، آپ کے لئے قطار کی قیمتیں دیکھتے ہیںمقاصدبائیں جدول میں موجود ڈیٹا کے ساتھ دائیں ٹیبل میں موجود ڈیٹا کو جوڑنے سے پہلے فیلڈ کو جمع کیا جاتا ہے۔
- جیسا کہ پچھلی مثال کی طرح ، بائیں جدول کی ایک قطار میں قطار کے لئے مطابقت نہیں رکھتی ہے مقاصد فیلڈ ، جیسا کہ دوسری منسوخ قیمت سے ظاہر ہوتا ہے۔
جب شامل ہونے کا متبادل بننا ہے ملاوٹ
1. ڈیٹا کو صفائی کی ضرورت ہے۔
اگر آپ کے ٹیبلز جوائن ہونے کے بعد ایک دوسرے کے ساتھ صحیح طور پر مماثل نہیں ہیں تو ، ہر ٹیبل کے ل data ڈیٹا سورس تشکیل دیں ، کوئی ضروری تخصیص کریں (یعنی کالموں کا نام تبدیل کریں ، کالم ڈیٹا کی اقسام کو تبدیل کریں ، گروپس بنائیں ، حساب کتابیں وغیرہ) ، اور پھر ڈیٹا کو جوڑنے کیلئے ڈیٹا بلینڈنگ کا استعمال کریں۔
2. ڈپلیکیٹ ڈیٹا کی وجہ سے شامل ہوتا ہے۔
شامل ہونے کے بعد ڈپلیکیٹ ڈیٹا تفصیل کے مختلف سطحوں پر ڈیٹا کی علامت ہے۔ اگر آپ کو ڈپلیکیٹ ڈیٹا ملاحظہ ہوتا ہے تو ، جوائن بنانے کے بجائے ، ڈیٹا بلینڈنگ کو عام جہت پر ملاوٹ کے ل use استعمال کریں۔
3. آپ کے پاس بہت سارے ڈیٹا ہیں۔
عام طور پر اسی ڈیٹا بیس سے ڈیٹا کو اکٹھا کرنے کی سفارش کی جاتی ہے۔ شامل ہونے کو ڈیٹا بیس کے ذریعہ سنبھالا جاتا ہے ، جو ڈیٹا بیس کی کچھ مقامی صلاحیتوں کو فائدہ اٹھانے کی اجازت دیتا ہے۔ تاہم ، اگر آپ بڑے اعداد و شمار کے ساتھ کام کر رہے ہیں تو ، شامل ہوکر ڈیٹا بیس پر دباؤ ڈال سکتا ہے اور کارکردگی کو نمایاں طور پر متاثر کرسکتا ہے۔ اس صورت میں ، ڈیٹا ملاوٹ میں مدد مل سکتی ہے۔ چونکہ ڈیٹا اکٹھا ہونے کے بعد ٹیبل ڈیٹا کو اکٹھا کرنے سے نمٹا جاتا ہے ، لہذا جمع کرنے کے لئے کم ڈیٹا موجود ہیں۔ جب جمع کرنے کے لئے کم اعداد و شمار موجود ہوں تو عام طور پر کارکردگی بہتر ہوتی ہے۔
جھاڑیوں میں اپنے ڈیٹا کو ملاوٹ
آپ ڈیٹا بلینڈنگ کا استعمال اس وقت کرسکتے ہیں جب آپ کے پاس الگ الگ ڈیٹا سورس میں ڈیٹا ہوتا ہے جس کا آپ ایک ہی شیٹ پر مل کر تجزیہ کرنا چاہتے ہیں۔ جھاڑی کے دو ان بلٹ ڈیٹا ماخذ ہیں نمونہ سپر اسٹور اور نمونہ کافی چین. mdb جو ڈیٹا ملاوٹ کی مثال کے لئے استعمال ہوگا۔
پہلا مرحلہ: اپنے ڈیٹا سے مربوط ہوں اور ڈیٹا کے ذرائع کو مرتب کریں
- ڈیٹا کے ایک سیٹ سے جڑیں اور ڈیٹا سورس پیج پر ڈیٹا سورس ترتیب دیں۔ ایک inbuilt ڈیٹا ماخذ نمونہ کافی چین. mdb ،جو ایک MS رسائی ڈیٹا بیس فائل ہے ، کو ڈیٹا ملاوٹ کی مثال کے لئے استعمال کیا جائے گا۔
- کے پاس جاؤ ڈیٹا > نیا ڈیٹا ماخذ، ڈیٹا کے دوسرے سیٹ سے مربوط ہوں۔یہ مثال استعمال کرتا ہے نمونہ۔ سپر اسٹور ڈیٹا کا ذریعہ. ٹیمرغی نے ڈیٹا کا ماخذ ترتیب دیا۔
- اپنے نقطہ نظر کی تعمیر شروع کرنے کے لئے شیٹ ٹیب پر کلک کریں۔
دوسرا مرحلہ: اعداد و شمار کا ایک بنیادی ماخذ نامزد کریں
- کم از کم ایک فیلڈ کو اپنے بنیادی ڈیٹا ماخذ سے اس نظریے میں گھسیٹ کر رکھیں کہ اسے اعداد و شمار کے بنیادی ماخذ کے طور پر نامزد کیا جائے۔ میں ڈیٹا پین ، ڈیٹا سورس پر کلک کریں جس کو آپ بنیادی ڈیٹا سورس کے طور پر نامزد کرنا چاہتے ہیں۔ اس مثال میں ، نمی کافی چین منتخب کیا گیا ہے۔
- مندرجہ ذیل اسکرین شاٹ مختلف ٹیبلز کو دکھاتا ہے اور فائل میں دستیاب ہوتا ہے۔
مرحلہ 3: اعداد و شمار کا ایک دوسرا ذریعہ نامزد کریں
- اعداد و شمار کے ذرائع سے دیکھنے میں استعمال ہونے والے فیلڈ جو بنیادی اعداد و شمار کا ذریعہ نہیں ہیں یا فعال روابط نہیں ہیں خود بخود بعد کے اعداد و شمار کے ذرائع کو ثانوی ڈیٹا سورس کے طور پر نامزد کرتے ہیں۔ اس معاملے میں ، نمونہ سپر اسٹور۔
مرحلہ 4: بلینڈ ڈیٹا
- اب آپ دونوں جہتوں سے ڈیٹا کو مشترکہ جہت کی بنیاد پر مربوط کرسکتے ہیں ( حالت ، اس معاملے میں). نوٹ کریں کہ ایک چھوٹا سا لنک کی تصویر طول و عرض کے ساتھ ظاہر ہوگی - ریاست۔ یہ دونوں اعداد و شمار کے ذرائع کے درمیان مشترکہ جہت کی نشاندہی کرتا ہے۔
- فرض کریں کہ آپ اس کے ساتھ بار چارٹ تیار کرتے ہیں منافع کا تناسب کالم شیلف میں اور حالت رو شیلف میں ، چارٹ ظاہر کرتا ہے کہ سپر اسٹور اور کافی چین دونوں دکانوں میں ہر ریاست کے لئے منافع کا تناسب کس طرح مختلف ہے۔
جھاڑی میں ڈیٹا بلینڈنگ کی حدود
- غیر اضافی مجموعات کے آس پاس کچھ اعداد و شمار کی ملاوٹ کی حدود ہیں ، جیسے اوسط ، اور راسقلاگ .
- ڈیٹا بلینڈنگ اعلی گرانولاری میں سوال کی رفتار سے سمجھوتہ کرتا ہے۔
- جب آپ حساب والے فیلڈ کے حساب سے ترتیب دینے کی کوشش کرتے ہیں جو ملاوٹ شدہ ڈیٹا کا استعمال کرتا ہے ، تو حساب شدہ فیلڈ ترتیب دیں ڈائیلاگ باکس کی فیلڈ ڈراپ ڈاؤن فہرست میں درج نہیں ہوتا ہے۔
- مکعب میں اعداد و شمار کو ملاوٹ کے ل only مکعب ڈیٹا کے ذرائع کو صرف بنیادی ڈیٹا ماخذ کے طور پر استعمال کیا جاسکتا ہے۔ انہیں ثانوی اعداد و شمار کے ذرائع کے طور پر استعمال نہیں کیا جاسکتا۔
میں امید کرتا ہوں کہ آپ سب کے بارے میں ایک اچھا خیال ہے جھاڑی میں ڈیٹا ملاوٹ اس بلاگ سے مزید معلومات کے لئے بھوک لگی ہے؟ فکر نہ کریں ، یہ ویڈیو آپ کو تصور کی بہتر تفہیم فراہم کرے گا۔