ڈیٹا سائنس کیا ہے؟ ڈیٹا سائنس کے لئے ایک ابتدائی رہنما



ڈیٹا سائنس مصنوعی ذہانت کا مستقبل ہے۔ جانیں کہ ڈیٹا سائنس کیا ہے ، یہ آپ کے کاروبار اور اس کے مختلف حیاتیاتی مراحل میں کس طرح قیمت ڈال سکتا ہے۔

جیسے جیسے دنیا بڑے اعداد و شمار کے دور میں داخل ہوئی ، اس کے ذخیرے کی ضرورت بھی بڑھتی گئی۔ یہ انٹرپرائز صنعتوں کے لئے 2010 تک بنیادی چیلنج اور تشویش تھا۔ مرکزی توجہ ڈیٹا کو اسٹور کرنے کے فریم ورک اور حل کی تشکیل پر تھی۔ اب جب ہڈوپ اور دیگر فریم ورک نے اسٹوریج کے مسئلے کو کامیابی کے ساتھ حل کرلیا ہے ، تو توجہ اس اعداد و شمار کی پروسیسنگ کی طرف بڑھ گئی ہے۔ ڈیٹا سائنس یہاں کی خفیہ چٹنی ہے۔ ہالی ووڈ کی سائنس فائی فلموں میں جو نظریات آپ دیکھتے ہیں وہ ڈیٹا سائنس کے ذریعہ حقیقت میں حقیقت میں بدل سکتے ہیں۔ ڈیٹا سائنس مصنوعی ذہانت کا مستقبل ہے۔ لہذا ، یہ سمجھنا بہت ضروری ہے کہ ڈیٹا سائنس کیا ہے اور یہ آپ کے کاروبار کو کیسے اہمیت دے سکتا ہے۔

ایڈورکا 2019 ٹیک کیریئر گائیڈ ختم! گائیڈ میں مشہور ترین کام کے کردار ، سیکھنے کے عین راستے ، صنعت کے نقطہ نظر اور بہت کچھ۔ ڈاؤن لوڈ کریں ابھی.

اس بلاگ میں ، میں مندرجہ ذیل عنوانات کا احاطہ کرتا ہوں۔





اس بلاگ کے اختتام تک ، آپ یہ سمجھنے کے قابل ہو جائیں گے کہ ڈیٹا سائنس کیا ہے اور ہمارے آس پاس کے کوائف کے پیچیدہ اور بڑے سیٹوں سے بامقصد بصیرت نکالنے میں اس کا کیا کردار ہے۔ڈیٹا سائنس پر گہرائی سے معلومات حاصل کرنے کے ل you ، آپ براہ راست داخلہ لے سکتے ہیں بذریعہ ایڈوریکا 24/7 معاونت اور زندگی بھر رسائی۔

ڈیٹا سائنس کیا ہے؟

ڈیٹا سائنس خام اعداد و شمار سے پوشیدہ نمونوں کو دریافت کرنے کے مقصد کے ساتھ مختلف ٹولز ، الگورتھم ، اور مشین سیکھنے کے اصولوں کا ایک مرکب ہے۔ لیکن اس سے کس طرح مختلف ہے جو شماریات دان برسوں سے کر رہے ہیں؟



اس کا جواب وضاحت اور پیش گوئی کرنے کے فرق میں ہے۔

ڈیٹا تجزیہ کار v / s ڈیٹا سائنس - ایڈورکا

جیسا کہ آپ مندرجہ بالا تصویر سے دیکھ سکتے ہیں ، ایک ڈیٹا تجزیہ کارعام طور پر وضاحت کرتا ہے کہ ڈیٹا کی تاریخ پر کارروائی کرکے کیا ہورہا ہے۔ دوسری طرف ، ڈیٹا سائنسدان اس سے بصیرت دریافت کرنے کے لئے نہ صرف ریسرچ کا تجزیہ کرتا ہے بلکہ مستقبل میں کسی خاص واقعے کی موجودگی کی نشاندہی کرنے کے لئے مختلف جدید مشینری لرننگ الگورتھم کا استعمال بھی کرتا ہے۔ ڈیٹا سائنسدان بہت سے زاویوں کے ڈیٹا کو دیکھے گا ، بعض اوقات ایسے زاویوں کو جو پہلے معلوم نہیں تھے۔



لہذا ، ڈیٹا سائنس بنیادی طور پر فیصلے اور پیش گوئیاں کرنے کے لئے استعمال ہوتا ہے جس میں پیش گوئی کرنے والے کازیل تجزیات ، نسخے دار تجزیات (پیشن گوئی کے علاوہ فیصلہ سائنس) اور مشین لرننگ کا استعمال ہوتا ہے۔

c ++ سرنی چھانٹ رہا ہے
  • پیش گوئی کارنر تجزیات - اگر آپ کو ایسا ماڈل چاہیئے جو مستقبل میں کسی خاص واقعے کے امکانات کی پیش گوئی کر سکے تو آپ کو پیش گوئی کے کارن تجزیات کو استعمال کرنے کی ضرورت ہے۔ کہتے ہیں ، اگر آپ کریڈٹ پر رقم فراہم کررہے ہیں ، تو صارفین کے مستقبل میں کریڈٹ ادائیگی وقت پر کرنے کا امکان آپ کے لئے پریشانی کا باعث ہے۔ یہاں ، آپ ایسا ماڈل تیار کرسکتے ہیں جو پیش گوئی کرنے کیلئے کسٹمر کی ادائیگی کی تاریخ کے بارے میں پیش گوئی کرنے والے تجزیات انجام دے سکے کہ آیا مستقبل میں ادائیگی وقت پر ہوگی یا نہیں۔
  • نسخی تجزیات: اگر آپ ایک ایسا ماڈل چاہتے ہیں جس میں خود فیصلہ لینے کی ذہانت ہو اور اس میں متحرک پیرامیٹرز کے ساتھ ترمیم کرنے کی صلاحیت ہو ، تو آپ کو یقینی طور پر اس کے لئے نسخہ تجزیات کی ضرورت ہوگی۔ یہ نسبتا new نیا فیلڈ مشورے دینے کے بارے میں ہے۔ دوسری شرائط میں ، اس سے نہ صرف پیش گوئی کی جاتی ہے بلکہ مشق شدہ اعمال اور وابستہ نتائج کی ایک رینج بھی تجویز ہوتی ہے۔
    اس کی بہترین مثال گوگل کی خود چلانے والی کار ہے جس کے بارے میں میں نے پہلے بھی تبادلہ خیال کیا تھا۔ گاڑیوں کے ذریعہ جمع کردہ ڈیٹا کو خود سے چلانے والی کاروں کی تربیت کے لئے استعمال کیا جاسکتا ہے۔ اس میں انٹیلی جنس لانے کے ل You آپ اس ڈیٹا پر الگورتھم چلا سکتے ہیں۔ اس سے آپ کی کار فیصلے کرنے میں اہل ہوجائے گی کہ کب موڑنا ہے ، کون سا راستہ اختیار کرنا ہے،جب سست یا تیز ہوجائے۔
  • پیش گوئیاں کرنے کے لئے مشین لرننگ اگر آپ کے پاس کسی مالیاتی کمپنی کا ٹرانزیکشنل ڈیٹا ہے اور مستقبل کے رجحان کو طے کرنے کے ل a ایک ماڈل تیار کرنے کی ضرورت ہے تو ، مشین مشینی الگورتھم بہترین شرط ہے۔ یہ زیر نگرانی سیکھنے کی مثال کے تحت آتا ہے۔ اسے نگرانی کہا جاتا ہے کیونکہ آپ کے پاس پہلے سے ہی ڈیٹا موجود ہے جس کی بنیاد پر آپ اپنی مشینوں کو تربیت دے سکتے ہیں۔ مثال کے طور پر ، دھوکہ دہی سے متعلق خریداری کے تاریخی ریکارڈ کا استعمال کرتے ہوئے دھوکہ دہی کا پتہ لگانے کے ماڈل کی تربیت کی جاسکتی ہے۔
  • پیٹرن کی دریافت کیلئے مشین لرننگ اگر آپ کے پاس پیرامیٹر نہیں ہیں جس کی بنیاد پر آپ پیشن گوئ کرسکتے ہیں ، تو آپ کو ڈیٹاسیٹ کے اندر چھپی ہوئی نمونوں کو تلاش کرنے کی ضرورت ہوگی تاکہ بامقصد پیش گوئیاں کرسکیں۔ یہ غیر منقسم ماڈل کے سوا کچھ نہیں ہے کیونکہ آپ کے پاس گروپ بندی کے لئے پہلے سے طے شدہ لیبل نہیں ہیں۔ پیٹرن کی دریافت کے ل used سب سے عام الگورتھم کلسٹرنگ ہے۔
    ہم کہتے ہیں کہ آپ ٹیلیفون کمپنی میں کام کر رہے ہیں اور آپ کو کسی خطے میں ٹاور لگا کر نیٹ ورک قائم کرنے کی ضرورت ہے۔ تب ، آپ ان ٹاور والے مقامات کو تلاش کرنے کے لئے کلسٹرنگ تکنیک کا استعمال کرسکتے ہیں جو یقینی بنائے گی کہ تمام صارفین کو زیادہ سے زیادہ سگنل کی طاقت حاصل ہوگی۔

آئیے دیکھتے ہیں کہ اعداد و شمار کے تجزیہ کے ساتھ ساتھ ڈیٹا سائنس کے لئے اوپر بیان کردہ طریقوں کا تناسب کس طرح مختلف ہے۔ جیسا کہ آپ نیچے کی تصویر میں دیکھ سکتے ہیں ، ڈیٹا انیلیسیسایک خاص حد تک وضاحتی تجزیات اور پیش گوئی بھی شامل ہے۔ دوسری طرف ، ڈیٹا سائنس پیش گوئی کیزیکل تجزیات اور مشین لرننگ کے بارے میں زیادہ ہے۔

ڈیٹا سائنس تجزیات - ایڈورکا

اب جب آپ جانتے ہو کہ دراصل سائنس کیا ہے ، تو اب اس کی وجہ معلوم کریں کہ پہلی جگہ اس کی ضرورت کیوں تھی۔

کیوں ڈیٹا سائنس؟

  • روایتی طور پر ، ہمارے پاس موجود ڈیٹا زیادہ تر ساختی اور چھوٹا تھا ، جس کا تجزیہ سادہ BI ٹولز کے ذریعہ کیا جاسکتا ہے۔میں اعداد و شمار کے برعکسروایتی نظام جس کا زیادہ تر ڈھانچہ تھا، آج زیادہ تر ڈیٹا غیر منظم یا نیم ساختہ ہے۔ آئیے ذیل میں دی گئی شبیہہ میں موجود ڈیٹا کے رجحانات پر ایک نظر ڈالیں جس سے پتہ چلتا ہے کہ 2020 تک ، 80 than سے زیادہ ڈیٹا غیر منظم ہو جائے گا۔
    غیر ساختہ اعداد و شمار کا بہاؤ - ایڈیورکا
    یہ ڈیٹا مختلف ذرائع سے تیار کیا گیا ہے جیسے مالی لاگ ، ٹیکسٹ فائلیں ، ملٹی میڈیا فارم ، سینسر اور آلات۔ آسان BI ٹولز اس بھاری مقدار اور مختلف قسم کے ڈیٹا پر کارروائی کرنے کے اہل نہیں ہیں۔ یہی وجہ ہے کہ ہمیں اس سے معنی خیز بصیرت پروسسنگ ، تجزیہ اور ڈرائنگ کیلئے مزید پیچیدہ اور جدید تجزیاتی ٹولز اور الگورتھم کی ضرورت ہے۔

یہ واحد وجہ نہیں ہے کیوں کہ ڈیٹا سائنس اتنا مقبول ہوا ہے۔ آئیے گہری کھدائی کریں اور دیکھیں کہ مختلف ڈومینز میں ڈیٹا سائنس کس طرح استعمال ہورہی ہے۔

  • اس بارے میں کہ اگر آپ موجودہ اعداد و شمار جیسے اپنے صارف کی بروسٹنگ کی تاریخ ، خریداری کی تاریخ ، عمر اور آمدنی سے اپنے صارفین کی قطعی ضروریات کو سمجھ سکتے ہو۔ اس میں کوئی شک نہیں کہ آپ کے پاس پہلے بھی یہ سارے ڈیٹا موجود تھے ، لیکن اب اعداد و شمار کی وسعت اور مقدار کے ساتھ ، آپ ماڈلز کو زیادہ موثر طریقے سے تربیت دے سکتے ہیں اور زیادہ درستگی کے ساتھ اپنے صارفین کو مصنوع کی سفارش کرسکتے ہیں۔ کیا یہ حیرت انگیز نہیں ہوگا کیوں کہ یہ آپ کی تنظیم میں مزید کاروبار لائے گا؟
  • آئیے میں ڈیٹا سائنس کے کردار کو سمجھنے کے لئے ایک مختلف منظر نامہ اپنائیں فیصلہ سازی.کس طرح کے بارے میں اگر آپ کی کار میں آپ کو گھر چلانے کی ذہانت ہو؟ خود سے چلانے والی کاریں اس کے آس پاس کا نقشہ بنانے کے ل sen سینسرس سے براہ راست اعداد و شمار جمع کرتی ہیں ، جن میں ریڈار ، کیمرے اور لیزر شامل ہیں۔ اس اعداد و شمار کی بنیاد پر ، یہ فیصلے لیتا ہے جیسے کہ کب تیز ہوجائے ، کب تیز ہوجائے ، کب آگے بڑھے ، جہاں موڑ لیا جائے۔ جدید مشین سیکھنے کے الگورتھم کا استعمال۔
  • آئیے دیکھتے ہیں کہ ڈیٹا سائنس کو پیش گوئی کرنے والے تجزیات میں کس طرح استعمال کیا جاسکتا ہے۔ آئیے موسم کی پیشن گوئی کو ایک مثال کے طور پر لیں۔ جہازوں ، ہوائی جہاز ، ریڈارس ، مصنوعی سیاروں سے حاصل کردہ ڈیٹا کو ماڈل بنانے کے لئے اکٹھا اور تجزیہ کیا جاسکتا ہے۔ یہ ماڈل نہ صرف موسم کی پیش گوئی کریں گے بلکہ کسی قدرتی آفات کے پیش گوئی کرنے میں بھی مدد کریں گے۔ اس سے آپ کو پہلے سے ہی مناسب اقدامات کرنے اور بہت ساری قیمتی جانیں بچانے میں مدد ملے گی۔

آئیے ان تمام ڈومینز کو دیکھنے کے لئے ذیل میں انفوگرافک پر ایک نظر ڈالیں جہاں ڈیٹا سائنس اپنا تاثر پیدا کررہا ہے۔

ڈیٹا سائنس استعمال کے معاملات - ایڈوریکا

ڈیٹا سائنسدان کون ہے؟

ڈیٹا سائنسدانوں پر کئی تعریفیں دستیاب ہیں۔ آسان الفاظ میں ، ڈیٹا سائنسدان وہ ہوتا ہے جو ڈیٹا سائنس کے فن پر عمل پیرا ہوتا ہے۔اصطلاح 'ڈیٹا سائنسدان' رہا ہےاس حقیقت پر غور کرنے کے بعد ترتیب دیا گیا کہ ڈیٹا سائنسدان سائنسی شعبوں اور اطلاق سے بہت ساری معلومات کھینچتا ہے چاہے وہ اعدادوشمار ہو یا ریاضی کا۔

ڈیٹا سائنسدان کیا کرتا ہے؟

ڈیٹا سائنسدان وہی لوگ ہیں جو کچھ سائنسی مضامین میں اپنی مضبوط مہارت سے اعداد و شمار کے پیچیدہ مسائل کو دریافت کرتے ہیں۔ وہ ریاضی ، اعداد و شمار ، کمپیوٹر سائنس ، وغیرہ سے متعلق متعدد عناصر کے ساتھ کام کرتے ہیں (اگرچہ وہ ان تمام شعبوں میں ماہر نہیں ہوسکتے ہیں)۔وہ حل تلاش کرنے اور اس نتیجے پر پہنچنے میں جدید ترین ٹکنالوجی کا بہت زیادہ استعمال کرتے ہیں جو کسی تنظیم کی ترقی اور نشوونما کے لئے اہم ہیں۔ ساختی اور غیر ساختہ شکلوں سے دستیاب خام اعداد و شمار کے مقابلے میں ڈیٹا سائنس دان ڈیٹا کو زیادہ مفید شکل میں پیش کرتے ہیں۔

ڈیٹا سائنسدان کے بارے میں مزید معلومات کے ل you آپ اس مضمون سے رجوع کرسکتے ہیں

مزید آگے بڑھتے ہیں ، اب BI پر تبادلہ خیال کرتے ہیں۔ مجھے یقین ہے کہ آپ نے بزنس انٹیلی جنس (BI) کے بارے میں بھی سنا ہوگا۔ اکثر ڈیٹا سائنس BI کے ساتھ الجھن میں پڑتا ہے۔ میں کچھ مختصر اور واضح بیان کروں گادونوں کے مابین تضادات جو آپ کو بہتر تفہیم حاصل کرنے میں معاون ثابت ہوں گے۔ آئیے ایک نظر ڈالتے ہیں۔

بزنس انٹیلیجنس (BI) بمقابلہ ڈیٹا سائنس

  • بزنس انٹیلیجنس (BI) بنیادی طور پر پچھلے اعداد و شمار کا تجزیہ کرتا ہے تاکہ کاروباری رجحانات کو بیان کرنے کے لئے رکاوٹ اور بصیرت تلاش کی جاسکے۔ یہاں BI آپ کو بیرونی اور اندرونی ذرائع سے ڈیٹا لینے ، اسے تیار کرنے ، اس پر سوالات چلانے اور ڈیش بورڈ بنانے جیسے قابل سوالات کے جوابات کے قابل بناتا ہے۔سہ ماہی محصول تجزیہیا کاروباری مسائل۔ BI مستقبل قریب میں کچھ واقعات کے اثرات کا اندازہ کرسکتا ہے۔
  • ڈیٹا سائنس ایک مستقبل میں دیکھنے کا ایک نقطہ نظر ہے ، جو ماضی یا حالیہ اعداد و شمار کا تجزیہ کرنے اور مستقبل کے نتائج کی پیش گوئی پر باخبر فیصلے کرنے کے مقصد پر مبنی ایک ریسرچ طریقہ ہے۔ اس سے کھلے سوالوں کا جواب ملتا ہے کہ 'کیا' اور 'کیسے' واقعات پیش آتے ہیں۔

آئیے کچھ متضاد خصوصیات پر ایک نظر ڈالیں۔

خصوصیات بزنس انٹیلیجنس (BI) ڈیٹا سائنس
اعداد و شمار ذرائعڈھانچہ
(عام طور پر ایس کیو ایل ، اکثر ڈیٹا گودام)
ساخت اور غیر ساختہ دونوں

(نوشتہ جات ، کلاؤڈ ڈیٹا ، SQL ، NoSQL ، متن)

نقطہ نظراعداد و شمار اور تصوراعدادوشمار ، مشین لرننگ ، گراف تجزیہ ، نیورو لسانی پروگرامنگ (NLP)
فوکسماضی اور حالحال اور مستقبل
اوزارپینٹاہو ، مائیکروسافٹ BI ،کلیک ویو ، آرریپڈ مائنر ، بگ ایم ایل ، وکا ، آر

یہ سب ڈیٹا سائنس کیا ہے اس کے بارے میں تھا ، اب آئیے ڈیٹا سائنس کے لائف سائیکل کو سمجھیں۔

ڈیٹا سائنس پروجیکٹس میں ایک عام غلطی ، ضرورتوں کو سمجھے بغیر یا کاروباری مسئلہ کو ٹھیک طرح سے تیار کیے بغیر ، ڈیٹا اکٹھا کرنے اور تجزیہ کرنے میں تیزی لانا ہے۔ لہذا ، آپ کے لئے یہ بہت ضروری ہے کہ آپ ڈیٹا سائنس کی زندگی بھر کے تمام مراحل کی پیروی کریں تاکہ منصوبے کی آسانی سے کام کو یقینی بنایا جاسکے۔

ڈیٹا سائنس کا حیات

یہاں ڈیٹا سائنس لائف سائیکل کے اہم مراحل کا ایک مختصر جائزہ ہے۔

ڈیٹا سائنس کا لائف سائیکل - ایڈورکا


ڈیٹا سائنس کی دریافت - ایڈیورکامرحلہ 1 co دریافت:
اس منصوبے کو شروع کرنے سے پہلے ، آپ کو مختلف خصوصیات ، ضروریات ، ترجیحات اور مطلوبہ بجٹ کو سمجھنا ضروری ہے۔ آپ کے پاس صحیح سوالات پوچھنے کی صلاحیت ہونی چاہئے۔یہاں ، آپ اس بات کا اندازہ کرتے ہیں کہ آیا آپ کے پاس اس منصوبے کی مدد کے ل people لوگوں ، ٹکنالوجی ، وقت اور ڈیٹا کے لحاظ سے مطلوبہ وسائل موجود ہیں۔اس مرحلے میں ، آپ کو کاروباری مسئلہ کو طے کرنے اور جانچنے کے لئے ابتدائی فرضیہ (IH) مرتب کرنے کی بھی ضرورت ہے۔

ڈیٹا سائنس ڈیٹا کی تیاری - ایڈیورکا

مرحلہ 2 — ڈیٹا کی تیاری: اس مرحلے میں ، آپ کو تجزیاتی سینڈ باکس کی ضرورت ہوتی ہے جس میں آپ منصوبے کی پوری مدت کے لئے تجزیات انجام دے سکتے ہیں۔ ماڈلنگ سے قبل آپ کو دریافت کرنے ، پہلے سے تیار کرنے اور حالت کے اعداد و شمار کی ضرورت ہے۔ مزید ، آپ سینڈ بکس میں ڈیٹا حاصل کرنے کے لئے ETLT (نچوڑ ، ٹرانسفارم ، لوڈ اور ٹرانسفارم) انجام دیں گے۔ آئیے ذیل میں شماریاتی تجزیہ کے بہاؤ پر ایک نظر ڈالیں۔

ڈیٹا سائنس کا حیات
آپ ڈی کو صاف کرنے ، تبدیلی ، اور تصو .ر کے ل. R کا استعمال کرسکتے ہیں۔ اس سے آپ کو باہر جانے والوں کو تلاش کرنے اور متغیر کے درمیان تعلقات قائم کرنے میں مدد ملے گی۔ایک بار جب آپ ڈیٹا کو صاف اور تیار کرلیں تو ، وقت تلاش کرنے کا ہےتجزیاتاس پر. آئیے دیکھتے ہیں کہ آپ اس کو کیسے حاصل کرسکتے ہیں۔

فیز 3 — ماڈل منصوبہ بندی: ڈیٹا سائنس ماڈل کی منصوبہ بندی - ایڈورکا یہاں ، آپ متغیر کے مابین تعلقات استوار کرنے کے طریقے اور تکنیک کا تعین کریں گے۔یہ تعلقات الگورتھم کی بنیاد قائم کریں گے جسے آپ اگلے مرحلے میں نافذ کریں گے۔آپ مختلف اعدادوشمار کے فارمولوں اور تصو .رات کے ٹولوں کا استعمال کرکے ایکسپلوریٹری ڈیٹا اینالٹیکس (EDA) لگائیں گے۔

آئیے ماڈل کی منصوبہ بندی کے مختلف ٹولز پر ایک نظر ڈالیں۔

ڈیٹا سائنس میں ماڈل کی منصوبہ بندی کے اوزار۔ ایڈورکا

  1. R ماڈلنگ کی صلاحیتوں کا ایک مکمل سیٹ ہے اور تعبیراتی ماڈلز کی تعمیر کے لئے ایک اچھا ماحول فراہم کرتا ہے.
  2. ایس کیو ایل تجزیہ کی خدمات عام ڈیٹا کانوں کی افعال اور بنیادی پیش گوئی کرنے والے ماڈلز کا استعمال کرتے ہوئے ڈیٹا بیس تجزیات انجام دے سکتے ہیں۔
  3. ایس اے ایس / رسید ہڈوپ سے اعداد و شمار تک رسائی حاصل کرنے کے لئے استعمال کیا جاسکتا ہے اور اسے قابل تکرار اور دوبارہ قابل استعمال ماڈل روانی ڈایاگرام بنانے کے لئے استعمال کیا جاتا ہے۔

اگرچہ ، بہت سے ٹولز مارکیٹ میں موجود ہیں لیکن R سب سے زیادہ عام طور پر استعمال ہونے والا ٹول ہے۔

اب جب آپ کو اپنے ڈیٹا کی نوعیت کے بارے میں بصیرت ملی ہے اور آپ نے الگورتھم کو استعمال کرنے کا فیصلہ کرلیا ہے۔ اگلے مرحلے میں ، آپ کریں گےدرخواست دیںالگورتھم اور ایک ماڈل کی تعمیر.

ڈیٹا سائنس ماڈل کی عمارت - ایڈیورکافیز 4 — ماڈل عمارت: اس مرحلے میں ، آپ تربیت اور جانچ کے مقاصد کے لئے ڈیٹاسیٹس تیار کریں گے۔ یہاں yآپ کو یہ غور کرنے کی ضرورت ہے کہ آیا آپ کے موجودہ ٹولز ماڈل چلانے کے لئے کافی ہیں یا اس کو زیادہ مضبوط ماحول کی ضرورت ہوگی (جیسے تیز اور متوازی پروسیسنگ)۔ آپ سیکھنے کی مختلف تکنیکوں کا تجزیہ کریں گے جیسے ماڈل تیار کرنے کے لئے درجہ بندی ، ایسوسی ایشن اور کلسٹرنگ۔

آپ مندرجہ ذیل ٹولز کے ذریعہ ماڈل بلڈنگ حاصل کرسکتے ہیں۔

ڈیٹا سائنس میں ماڈل بنانے کے اوزار

مرحلہ 5 al آپریشنل: ڈیٹا سائنس آپریشنل۔ ایڈورکا اس مرحلے میں ، آپ حتمی رپورٹس ، بریفنگز ، کوڈ اور تکنیکی دستاویزات فراہم کرتے ہیں۔اس کے علاوہ ، بعض اوقات ایک پائلٹ پروجیکٹ بھی حقیقی وقت کی پیداوار کے ماحول میں نافذ ہوتا ہے۔ یہ آپ کو مکمل تعیloymentن سے قبل چھوٹے پیمانے پر کارکردگی اور دیگر متعلقہ رکاوٹوں کی واضح تصویر فراہم کرے گا۔


ڈیٹا سائنس میں مواصلت - ایڈیورکامرحلہ 6 icate نتائج سے گفتگو کریں:
اب یہ جائزہ لینا ضروری ہے کہ کیا آپ اپنے اس مقصد کو حاصل کرنے میں کامیاب ہوگئے ہیں جس کا آپ نے پہلے مرحلے میں منصوبہ بنایا تھا۔ لہذا ، آخری مرحلے میں ، آپ تمام اہم نتائج کی نشاندہی کرتے ہیں ، اسٹیک ہولڈرز سے بات چیت کرتے ہیں اور اس بات کا تعین کرتے ہیں کہ نتائج برآمد ہوئے ہیں یا نہیںمنصوبے کی کامیابی کامیابی یا ناکامی ہے جو فیز 1 میں تیار کردہ معیارات پر مبنی ہے۔

اب ، میں آپ کو مذکورہ بالا مختلف مراحل کی وضاحت کے لئے ایک کیس اسٹڈی لے کر جاؤں گا۔

کیس اسٹڈی: ذیابیطس سے بچاؤ

اگر ہم ذیابیطس کی موجودگی کی پیش گوئی کرسکیں اور اس سے بچنے کے لئے پہلے سے ہی مناسب اقدامات اٹھائیں۔
اس استعمال کے معاملے میں ، ہم ذیابیطس کی موجودگی کے بارے میں پیش گوئی کریں گے کہ اس سے پہلے ہم نے اس پورے لائف سائیکل کا استعمال کیا جس پر ہم نے پہلے تبادلہ خیال کیا تھا۔ آئیے مختلف مراحل سے گزرتے ہیں۔

مرحلہ نمبر 1:

  • پہلا،ہم طبی تاریخ کی بنیاد پر ڈیٹا اکٹھا کریں گےپہلے مرحلے میں زیربحث مریض کے بارے میں۔ آپ ذیل میں نمونے کے اعداد و شمار کا حوالہ دے سکتے ہیں۔

ڈیٹا سائنس کا نمونہ ڈیٹا۔ ایڈیورکا

  • جیسا کہ آپ دیکھ سکتے ہیں ، ہمارے پاس مختلف صفات ہیں جیسا کہ ذیل میں بتایا گیا ہے۔

اوصاف:

  1. npreg - حاملہ ہونے کی تعداد
  2. گلوکوز - پلازما گلوکوز حراستی
  3. bp - بلڈ پریشر
  4. جلد - ٹرائیسپس جلد کی جلد کی موٹائی
  5. bmi - باڈی ماس انڈیکس
  6. پیڈ - ذیابیطس پیڈری گری کی تقریب
  7. عمر - عمر
  8. آمدنی - آمدنی

مرحلہ 2:

  • اب ، جب ہمارے پاس ڈیٹا ہوجائے تو ، ہمیں ڈیٹا کو تجزیہ کرنے کے ل the ڈیٹا کو صاف اور تیار کرنے کی ضرورت ہے۔
  • اس ڈیٹا میں بہت سی مطابقتیں ہیں جیسے گمشدہ اقدار ، خالی کالم ، اچھruptے قدریں اور غلط ڈیٹا فارمیٹ جس کو صاف کرنے کی ضرورت ہے۔
  • یہاں ، ہم نے مختلف صفات کے تحت ڈیٹا کو ایک ہی جدول میں ترتیب دیا ہے۔
  • آئیے ذیل میں نمونے والے ڈیٹا پر ایک نظر ڈالیں۔

ڈیٹا سائنس متضاد ڈیٹا - ایڈوریکا

اس ڈیٹا میں بہت سی تضادات ہیں۔

  1. کالم میں npreg ، 'ایک' میں لکھا ہوا ہےالفاظ ،جبکہ یہ 1 کی طرح عددی شکل میں ہونا چاہئے۔
  2. کالم میں بی پی ایک اقدار 6600 ہے جو ناممکن ہے (کم از کم انسانوں کے لئے) کیونکہ بی پی اتنی بڑی قیمت تک نہیں جاسکتا۔
  3. جیسا کہ آپ دیکھ سکتے ہیں آمدنی کالم خالی ہے اور ذیابیطس کی پیش گوئی کرنے میں بھی کوئی معنی نہیں رکھتا ہے۔ لہذا ، یہ یہاں رکھنا بے کار ہے اور اسے ٹیبل سے ہٹا دینا چاہئے۔
  • لہذا ، ہم اس اعداد و شمار کو صاف ستھرا کریں گے اور باہر جانے والے کو ختم کرکے ، قدروں کو بھریں گے اور ڈیٹا کی قسم کو معمول پر لائیں گے۔ اگر آپ کو یاد ہے ، یہ ہمارا دوسرا مرحلہ ہے جو اعداد و شمار کو تیار کرتا ہے۔
  • آخر میں ، ہمیں صاف اعداد و شمار ملتے ہیں جیسے ذیل میں دکھایا گیا ہے جسے تجزیہ کے لئے استعمال کیا جاسکتا ہے۔

ڈیٹا سائنس مستقل ڈیٹا - ایڈورکا

مرحلہ 3:

آئیے کچھ تجزیہ کرتے ہیں جیسا کہ پہلے مرحلہ 3 میں زیر بحث آیا۔

  • پہلے ، ہم تجزیاتی سینڈ باکس میں ڈیٹا کو لوڈ کریں گے اور اس پر مختلف اعداد و شمار کے افعال لگائیں گے۔ مثال کے طور پر ، R کے جیسے افعال ہوتے ہیں بیان کرتا ہے جو ہمیں گمشدہ اقدار اور انوکھی اقدار کی تعداد فراہم کرتا ہے۔ ہم سمری فنکشن کا بھی استعمال کرسکتے ہیں جو اعدادوشمار کی معلومات جیسے وسط ، وسط ، حد ، کم سے کم اور زیادہ سے زیادہ اقدار فراہم کرے گا۔
  • اس کے بعد ، ہم ڈیٹا کی تقسیم کا منصفانہ خیال حاصل کرنے کے لئے ہسٹگرام ، لائن گراف ، باکس پلاٹس جیسے وژوئلائز تکنیک استعمال کرتے ہیں۔

ڈیٹا سائنس تصور - ایڈورکا

مرحلہ 4:

اب ، پچھلے مرحلے سے اخذ کردہ بصیرت کی بنیاد پر ، اس قسم کی پریشانی کے لئے بہترین فٹ فیصلہ کن درخت ہے۔ آئیے دیکھتے ہیں کہ کیسے؟

  • چونکہ ، ہمارے پاس اس طرح کے تجزیے کی بڑی خصوصیات ہیں npreg ، bmi ، وغیرہ ، تو ہم استعمال کریں گےایک کی تعمیر کے لئے نگرانی سیکھنے کی تکنیکماڈل یہاں.
  • مزید یہ کہ ہم نے خاص طور پر فیصلہ کن درخت کو استعمال کیا ہے کیونکہ یہ ایک بار میں تمام صفات کو مدنظر رکھتا ہے ، جیسے ایکلکیری تعلق کے ساتھ ساتھ وہ بھی جن کا غیر لکیری تعلق ہوتا ہے۔ ہمارے معاملے میں ، ہمارے درمیان باہمی تعلق ہے npreg اور عمر ، جبکہ غیر لکی تعلقات کے درمیان npreg اور پیڈ .
  • فیصلہ کرنے والے درختوں کے ماڈل بھی بہت مضبوط ہیں کیونکہ ہم مختلف درختوں کو بنانے کے لئے صفات کے مختلف مرکب کا استعمال کرسکتے ہیں اور پھر آخر کار زیادہ سے زیادہ کارکردگی کے ساتھ ایک پر عمل درآمد کروائیں۔

آئیے اپنے فیصلے والے درخت پر ایک نظر ڈالیں۔

ڈیزائن ٹری ڈیٹا سیٹ

یہاں ، سب سے اہم پیرامیٹر گلوکوز کی سطح ہے ، لہذا یہ ہمارا جڑ نوڈ ہے۔ اب ، موجودہ نوڈ اور اس کی قدر سے اگلے اہم پیرامیٹر لینے کا تعین ہوتا ہے۔ یہ تب تک جاری رہتا ہے جب تک کہ ہمیں شرائط کا نتیجہ نہیں مل جاتا ہے POS یا نیگ . پوز کا مطلب ہے ذیابیطس ہونے کا رجحان مثبت ہے اور نیگ کا مطلب ہے ذیابیطس ہونے کا رحجان منفی ہے۔

اگر آپ فیصلہ کن درخت کے نفاذ کے بارے میں مزید معلومات حاصل کرنا چاہتے ہیں تو ، اس بلاگ کو دیکھیں

مرحلہ 5:

اس مرحلے میں ، ہم یہ چیک کرنے کے لئے ایک چھوٹا سا پائلٹ پروجیکٹ چلائیں گے کہ آیا ہمارے نتائج موزوں ہیں یا نہیں۔ ہم کارکردگی کی رکاوٹوں کو بھی تلاش کریں گے اگر کوئی ہے۔ اگر نتائج درست نہیں ہیں تو پھر ہمیں ماڈل کو دوبارہ چلانے اور دوبارہ بنانے کی ضرورت ہے۔

مرحلہ 6:

ایک بار جب ہم منصوبے کو کامیابی کے ساتھ انجام دے چکے ہیں ، تو ہم مکمل تعیناتی کے لئے آؤٹ پٹ کا اشتراک کریں گے۔

ڈیٹا سائنسدان ہونے کی وجہ سے کرنا آسان ہے۔ تو ، آئیے یہ دیکھتے ہیں کہ آپ کو ڈیٹا سائنسدان بننے کی کیا ضرورت ہے۔ایک ڈیٹا سائنسدان بنیادی طور پر مہارت کی ضرورت ہےجیسا کہ ذیل میں دکھایا گیا ہے تین بڑے علاقوں سے۔

ڈیٹا سائنس کی مہارت - ایڈورکا

جیسا کہ آپ مندرجہ بالا تصویر میں دیکھ سکتے ہیں ، آپ کو مختلف سخت مہارتوں اور نرم مہارتوں کو حاصل کرنے کی ضرورت ہے۔ آپ کو اچھے ہونے کی ضرورت ہے اعدادوشمار اور ریاضی ڈیٹا کا تجزیہ اور تصور کرنا۔ کہنے کی ضرورت نہیں، مشین لرننگ ڈیٹا سائنس کے دل کی تشکیل کرتا ہے اور آپ کو اس میں اچھے ہونے کی ضرورت ہے۔ نیز ، آپ کو اس بارے میں ٹھوس تفہیم حاصل کرنے کی ضرورت ہے ڈومین آپ کاروباری مسائل کو واضح طور پر سمجھنے کے لئے کام کر رہے ہیں۔ آپ کا کام یہاں ختم نہیں ہوتا ہے۔ آپ کو مختلف الگورتھم کو نافذ کرنے کے قابل ہونا چاہئے جس میں اچھ requireے کی ضرورت ہوتی ہے کوڈنگ مہارت آخر میں ، ایک بار جب آپ کچھ اہم فیصلے کرلیں تو ، آپ کے ل. یہ ضروری ہے کہ انہیں اسٹیک ہولڈرز تک پہنچائیں۔ بہت اچھا مواصلات یقینی طور پر آپ کی مہارت میں براانی پوائنٹس کا اضافہ کرے گا۔

میں آپ سے گزارش کرتا ہوں کہ اس ڈیٹا سائنس ویڈیو ٹیوٹوریل کو دیکھیں جس میں یہ بتایا گیا ہے کہ ڈیٹا سائنس کیا ہے اور جو ہم نے بلاگ میں بحث کیا ہے۔ آگے بڑھیں ، ویڈیو سے لطف اٹھائیں اور مجھے بتائیں کہ آپ کیا سوچتے ہیں۔

ڈیٹا سائنس کیا ہے؟ ڈیٹا سائنس کورس - ابتدائیوں کے لئے ڈیٹا سائنس ٹیوٹوریل | ایڈوریکا

ایڈیورکا ڈیٹا سائنس کورس کا یہ ویڈیو آپ کو ڈیٹا سائنس کی ضروریات ، ڈیٹا سائنس کیا ہے ، کاروبار کے ل data ڈیٹا سائنس کے استعمال کے معاملات ، BI بمقابلہ ڈیٹا سائنس ، ڈیٹا اینالیٹکس ٹولز ، ڈیٹا سائنس لائف سائیکل کے ساتھ ساتھ ڈیمو کی ضروریات کو لے کر جائے گا۔

جاوا اسکرپٹ میں سرنی کی لمبائی

آخر میں ، یہ کہنا غلط نہیں ہوگا کہ مستقبل ڈیٹا سائنسدانوں کا ہے۔ پیش گوئی کی گئی ہے کہ سال 2018 کے اختتام تک قریب دس لاکھ ڈیٹا سائنسدانوں کی ضرورت ہوگی۔ زیادہ سے زیادہ ڈیٹا سے کاروبار کے اہم فیصلوں کو چلانے کے مواقع فراہم ہوں گے۔ یہ جلد ہی ہمارے ارد گرد کے اعداد و شمار سے دنیا کی طرف مائل نظر آنے کے انداز کو بدلنے والا ہے۔ لہذا ، ایک ڈیٹا سائنسدان انتہائی پیچیدہ اور انتہائی پیچیدہ مسائل کو حل کرنے کے لئے حوصلہ افزائی کرنا چاہئے۔

مجھے امید ہے کہ آپ نے میرے بلاگ کو پڑھ کر لطف اندوز ہوئے ہوں گے اور یہ سمجھا ہوگا کہ ڈیٹا سائنس کیا ہے۔ہمارے چیک کریں یہاں ، وہ انسٹرکٹر کی قیادت میں براہ راست تربیت اور حقیقی زندگی کے منصوبے کے تجربے کے ساتھ آتا ہے۔