اس بلاگ میں ، ہم ازگر میں پانڈوں کا استعمال کرتے ہوئے ڈیٹا کے تجزیے پر تبادلہ خیال کریں گے۔آج ، صنعت میں ایک گرم ہنر ہے جس نے 2017 میں پی ایچ پی اور 2018 میں سی # کو پیچھے چھوڑ دیا تھا مجموعی مقبولیت اور استعمال کے لحاظ سے۔پانڈوں کے بارے میں بات کرنے سے پہلے ، کسی کو نمپی سرائے کے تصور کو سمجھنا چاہئے۔ کیوں؟ کیونکہ پانڈاس ایک اوپن سورس سافٹ ویئر لائبریری ہے جو اوپری حصے میں تیار کی گئی ہے . اس ازگر پانڈاس ٹیوٹوریل میں ، میں آپ کو مندرجہ ذیل عنوانات کے بارے میں بتاؤں گا ، جو آئندہ بلاگز کے بنیادی اصولوں کے طور پر کام کریں گے:
آو شروع کریں. :-)
ازگر پانڈس کیا ہے؟
پانڈاس کو ڈیٹا ہیرا پھیری ، تجزیہ اور صفائی کے لئے استعمال کیا جاتا ہے۔ ازگر پانڈا مختلف قسم کے ڈیٹا کے ل well مناسب موزوں ہے ، جیسے کہ:
- متفاوت ٹائپ والے کالموں کے ساتھ ٹیبلر ڈیٹا
- آرڈرڈ اور غیر منظم ٹائم سیریز کا ڈیٹا
- قطار اور کالم لیبل کے ساتھ صوابدیدی میٹرکس ڈیٹا
- غیر منقولہ ڈیٹا
- مشاہداتی یا شماریاتی اعداد و شمار کی کوئی دوسری شکل
پنڈوں کو کیسے انسٹال کریں؟
ازگر پانڈس کو انسٹال کرنے کے ل your ، اپنی کمانڈ لائن / ٹرمینل پر جائیں اور 'پائپ انسٹال پانڈا' ٹائپ کریں ورنہ ، اگر آپ کے سسٹم میں ایناکونڈا انسٹال ہے تو ، صرف 'کونڈا انسٹال پانڈا' ٹائپ کریں۔ ایک بار جب انسٹالیشن مکمل ہوجائے تو ، اپنے IDE (Jupyter، PyCharm وغیرہ) پر جائیں اور اسے صرف یہ لکھ کر امپورٹ کریں: 'pdas as pd' درآمد کریں
پی ایچ پی سٹرنگ سے سرنی تخلیق کرتا ہے
ازگر پانڈاس ٹیوٹوریل میں آگے بڑھتے ہیں ، آئیے اس کے کچھ کاموں پر ایک نظر ڈالیں:
ازگر پانڈس آپریشنز
ازگر پانڈوں کا استعمال کرتے ہوئے ، آپ سیریز ، اعداد و شمار کے فریموں ، گمشدہ اعداد و شمار ، گروپ بائی وغیرہ کے ذریعہ بہت ساری کاروائیاں انجام دے سکتے ہیں۔ اعداد و شمار کے ہیرا پھیری کے لئے کچھ عمومی کارروائی ذیل میں درج ہے۔
آئیے ، ان سب کاموں کو ایک ایک کر کے سمجھیں۔
ڈیٹا فریم کاٹنا
ڈیٹا پر ٹکرانے کے لئے ، آپ کو ایک ڈیٹا فریم کی ضرورت ہے۔ پریشان ہونے کی کوئی بات نہیں ، ڈیٹا فریم ایک 2 جہتی ڈیٹا ڈھانچہ اور ایک عام پاینڈاس آبجیکٹ ہے۔ تو پہلے ، آئیے ڈیٹا فریم بنائیں۔
پیی چارم میں اس کے نفاذ کے لئے نیچے کا کوڈ ملاحظہ کریں:
پی ڈی XYZ_web = Day 'یوم' کے بطور پانڈا درآمد کریں: [1،2،3،4،5،6]، 'زائرین': [1000، 700،6000،1000،400،350]، 'باؤنس_ ریٹ': [20،20، 23،15،10،34]} df = pd.DataFrame (XYZ_web) پرنٹ (df)
آؤٹ پٹ :
اچھال_ شرح یوم زائرین 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350
مندرجہ بالا کوڈ ایک لانڈری کو پانڈاس ڈیٹا فریم میں بائیں طرف انڈیکس کے ساتھ تبدیل کرے گا۔ اب ، ہم اس ڈیٹا فریم سے ایک خاص کالم ٹکڑے ٹکڑے کر دیں۔ ذیل میں تصویر کا حوالہ دیں:
پرنٹ (df.head (2))
آؤٹ پٹ:
اچھال_ شرح یوم زائرین 0 20 1 1000 1 20 2 700
اسی طرح ، اگر آپ ڈیٹا کی آخری دو قطاریں چاہتے ہیں تو ، نیچے والی کمانڈ میں ٹائپ کریں:
پرنٹ (df.tail (2))
آؤٹ پٹ:
اچھال_ شرح یوم زائرین 4 10 5 400 5 34 6 350
اگلا ، ازگر پانڈاس ٹیوٹوریل میں ، آئیں ضم اور شمولیت انجام دیں۔
ضم اور شامل ہونا
ضم کرنے میں ، آپ ایک ہی اعداد و شمار کے فریم کی تشکیل کے ل two دو ڈیٹا فریموں کو ضم کرسکتے ہیں۔ آپ یہ بھی فیصلہ کرسکتے ہیں کہ آپ کون سے کالم کو عام کرنا چاہتے ہیں۔ مجھے عملی طور پر اس پر عمل درآمد کرنے دیں ، پہلے میں تین ڈیٹا فریم تیار کروں گا ، جس میں کچھ اہم قدر والے جوڑے ہوتے ہیں اور پھر ڈیٹا کے فریموں کو ایک ساتھ ملا دیتے ہیں۔ ذیل میں کوڈ ملاحظہ کریں:
HPI IND_GDP انٹ_ریٹ 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3
آؤٹ پٹ:
pdas as pd df1 = pd.DataFrame ({'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP': [50،45،45، درآمد کریں 67]} ، انڈیکس = [2001 ، 2002،2003،2004]) df2 = pd.DataFrame ({'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3] ، 'IND_GDP': [50،45،45،67]}، انڈیکس = [2005 ، 2006،2007،2008]) ضم شدہ = پی ڈی ڈرم (ڈی ایف 1 ، ڈی ایف 2) پرنٹ (انضمام)
جیسا کہ آپ اوپر دیکھ سکتے ہیں ، دونوں ڈیٹا فریم ایک ہی ڈیٹا فریم میں ضم ہوگئے ہیں۔ اب ، آپ کالم بھی مخصوص کرسکتے ہیں جسے آپ عام کرنا چاہتے ہیں۔ مثال کے طور پر ، میں چاہتا ہوں کہ 'HPI' کالم عام ہو اور ہر چیز کے ل I ، میں الگ کالم چاہتا ہوں۔ تو ، مجھے عملی طور پر اس پر عمل درآمد کرنے دیں:
ڈی ایف 1 = پی ڈی۔ ڈیٹا فریم (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP': [50،45،45،67]}، انڈیکس = [2001 ، 2002،2003،2004]) df2 = pd.DataFrame (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP' : [[50،45،45،67]}، انڈیکس = [2005 ، 2006،2007،2008]) انضمام شدہ = pd.olve (df1، df2، on = 'HPI') پرنٹ (انضمام)
آؤٹ پٹ:
IND_GDP انٹ_ ریٹ کم_ٹیئر_ ایچ پی آئی بے روزگاری 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
اگلا ، ہمیں سمجھنے دو شمولیت ازگر پانڈاس سبق میں ایک ہی نتیجہ کے اعداد و شمار کے فریم میں دو مختلف انداز سے ترتیب دیئے گئے ڈیٹا فریموں کو اکٹھا کرنا ایک اور آسان طریقہ ہے۔ یہ 'انضمام' آپریشن سے بالکل مماثلت رکھتا ہے ، سوائے اس میں شامل ہونے والا آپریشن 'کالم' کی بجائے 'انڈیکس' پر ہوگا۔ آئیے ہم اسے عملی طور پر نافذ کریں۔
df1 = pd.DataFrame (Int 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP': [50،45،45،67] index، انڈیکس = [2001، 2002،2003،2004]) df2 = پی ڈی ڈاٹا فریم (Low 'کم_ٹیئر_ح۔پی۔آئی.آئی:: [50،45،67،34]،' بے روزگاری ': [1،3،5،6] index، انڈیکس = [2001، 2003،2004،2004]) = df1 شامل ہوئے۔ join (df2) پرنٹ (شامل)
آؤٹ پٹ:
IND_GDP انٹ_ ریٹ کم_ٹیئر_ ایچ پی آئی بے روزگاری 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
جیسا کہ آپ مندرجہ بالا آؤٹ پٹ میں دیکھ سکتے ہیں ، سال 2002 (اشاریہ) میں ، کالموں کے ساتھ 'کم_ٹیر ایچ پی آئی' اور 'بے روزگاری' سے وابستہ کوئی قدر نہیں ہے ، لہذا اس نے این این (نمبر نہیں) پرنٹ کیا ہے۔ بعد میں 2004 میں ، دونوں اقدار دستیاب ہیں ، لہذا اس نے متعلقہ اقدار کو پرنٹ کیا ہے۔
آپ ازگر پانڈاس ٹیوٹوریل کی اس ریکارڈنگ سے گزر سکتے ہیں جہاں ہمارے انسٹرکٹر نے ان مثالوں کو مثالوں کے ساتھ تفصیلی انداز میں بیان کیا ہے جو آپ کو اس تصور کو بہتر طور پر سمجھنے میں مدد فراہم کریں گے۔
ڈیٹا تجزیہ کے لئے ازگر | ازگر پانڈاس ٹیوٹوریل | ازگر کی تربیت | ایڈوریکا
ازگر پانڈاس ٹیوٹوریل میں آگے بڑھتے ہوئے ، آئیے ہم سمجھتے ہیں کہ ڈیٹا کے دو فریموں کو کس طرح جوڑنا ہے۔
مقابلہ کرنا
مقابلہ کرنا بنیادی طور پر ڈیٹا فریموں کو ایک ساتھ جوڑتا ہے۔ آپ وہ جہت منتخب کرسکتے ہیں جس پر آپ اتفاق کرنا چاہتے ہیں۔ اس کے ل just ، صرف 'pd.concat' استعمال کریں اور ڈیٹا فریموں کی فہرست میں ایک ساتھ جمع ہونے کے لئے پاس کریں۔ ذیل کی مثال پر غور کریں۔
ڈی ایف 1 = پی ڈی۔ ڈیٹا فریم (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP': [50،45،45،67]}، انڈیکس = [2001 ، 2002،2003،2004]) df2 = pd.DataFrame (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP' : [[50،45،45،67]}، انڈیکس = [2005 ، 2006،2007،2008]) کونکات = پی ڈی کوکٹ ([ڈی ایف 1 ، ڈی ایف 2]) پرنٹ (کونکات)
آؤٹ پٹ:
HPI IND_GDP انٹ_ریٹ 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3
جیسا کہ آپ اوپر دیکھ سکتے ہیں ، دونوں ڈیٹا فریموں کو ایک ہی ڈیٹا فریم میں جوڑا جاتا ہے ، جہاں انڈیکس 2001 سے 2008 تک شروع ہوتا ہے۔ اگلا ، آپ کالمز میں شامل ہونے ، انضمام یا کینٹینیٹیٹ کے لئے محور = 1 کی بھی وضاحت کرسکتے ہیں۔ ذیل میں کوڈ ملاحظہ کریں:
ڈی ایف 1 = پی ڈی۔ ڈیٹا فریم (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP': [50،45،45،67]}، انڈیکس = [2001 ، 2002،2003،2004]) df2 = pd.DataFrame (H 'HPI': [80،90،70،60]، 'انٹ_ ریٹ': [2،1،2،3]، 'IND_GDP' : [[50،45،45،67]}، انڈیکس = [2005 ، 2006،2007،2008]) کونکات = پی ڈی کوکٹ ([ڈی ایف 1 ، ڈی ایف 2] ، محور = 1) پرنٹ (کونکاتٹ)
آؤٹ پٹ:
HPI IND_GDP انٹ_ریٹ HPI IND_GDP IN_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005.0NNN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 2007 NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0
جیسا کہ آپ اوپر کرسکتے ہیں ، بہت ساری قدریں گم ہیں۔ ایسا اس لئے ہوتا ہے کیونکہ ڈیٹا فریموں میں ان تمام اشاریوں کی قدر نہیں ہوتی تھی جن پر آپ اتفاق کرنا چاہتے ہیں۔ لہذا ، آپ کو اس بات کو یقینی بنانا چاہئے کہ جب آپ محور پر شامل ہوجائیں یا کنکٹیٹ کریں تو آپ کے پاس صحیح طور پر موجود تمام معلومات موجود ہیں۔
انڈیکس کو تبدیل کریں
اگلے پانڈاس ٹیوٹوریل میں اگلے ، ہم سمجھیں گے کہ ڈیٹا فریم میں انڈیکس اقدار کو کیسے تبدیل کیا جائے۔ مثال کے طور پر ، ہم ایک لغت میں کچھ اہم قدروں کے ساتھ ایک ڈیٹا فریم بنائیں اور اشاریہ کی اقدار کو تبدیل کریں۔ ذیل کی مثال پر غور کریں:
آئیے دیکھتے ہیں کہ واقعتا یہ کیسے ہوتا ہے:
پی ڈی ایف = پی ڈی ڈاٹا فریم ({'ڈے': [1،2،3،4]، 'زائرین': [200 ، 100،230،300] ، 'باؤنس_ ریٹ': [20،45،60،10] as) کے طور پر پانڈا درآمد کریں df.set_index ('ڈے' ، inplace = true) پرنٹ (df)
آؤٹ پٹ:
اچھال_ شرح زائرین کا دن 1 20 200 2 45 100 3 60 230 4 10 300
جیسا کہ آپ اوپر آؤٹ پٹ میں دیکھ سکتے ہیں ، انڈیکس ویلیو کو 'ڈے' کالم کے حوالے سے تبدیل کردیا گیا ہے۔
کالم ہیڈرز کو تبدیل کریں
آئیے اب اس ازگر پانڈاس ٹیوٹوریل میں کالم کے ہیڈرز کو تبدیل کریں۔ آئیے وہی مثال لیں ، جہاں میں کالم ہیڈر کو 'زائرین' سے 'صارف' میں تبدیل کروں گا۔ تو ، مجھے عملی طور پر اس پر عمل درآمد کرنے دیں۔
پی ڈی ایف = پی ڈی ڈاٹا فریم ({'ڈے': [1،2،3،4]، 'زائرین': [200 ، 100،230،300] ، 'باؤنس_ ریٹ': [20،45،60،10] as) کے طور پر پانڈا درآمد کریں df = df.rename (کالم = {'زائرین': 'صارف'}) پرنٹ (df)
آؤٹ پٹ:
اچھال_تاریخ کے استعمال کنندہ 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300
جیسا کہ آپ اوپر دیکھ رہے ہیں ، کالم ہیڈر 'زائرین' کو 'صارف' میں تبدیل کر دیا گیا ہے۔ اگلا پینڈاس ٹیوٹوریل کے آگے ، آئیے ہم ڈیٹا مونگنگ کرتے ہیں۔
ڈیٹا منگنگ
ڈیٹا مونگنگ میں ، آپ کسی خاص ڈیٹا کو مختلف شکل میں تبدیل کرسکتے ہیں۔ مثال کے طور پر ، اگر آپ کے پاس .csv فائل ہے تو ، آپ اسے .html یا کسی دوسرے ڈیٹا فارمیٹ میں بھی تبدیل کرسکتے ہیں۔ تو ، مجھے عملی طور پر اس پر عمل درآمد کرنے دیں۔
درآمد پانڈوں کو بطور پی ڈی کنٹری = پی ڈی ڈریڈ_سیسوی ('D: صارفین آیوشی ڈاونلوڈز والڈ بینک-یوتھ-بیروزگاری AP_ILO_country_YU.csv'، انڈیکس_کول = 0) کنٹری ڈاٹ ٹو_html ('ای ڈی ایچ ٹی ایم ایل')
ایک بار جب آپ اس کوڈ کو چلاتے ہیں تو ، 'HTML' کے نام سے ایک HTML فائل تشکیل دی جائے گی۔ آپ براہ راست فائل کے راستے کاپی کرسکتے ہیں اور اسے اپنے براؤزر میں چسپاں کرسکتے ہیں جو ڈیٹا کو HTML شکل میں دکھاتا ہے۔ ذیل میں اسکرین شاٹ کا حوالہ دیں:
اگلا پینڈاس ٹیوٹوریل کے آگے ، آئیے استعمال شدہ معاملے پر ایک نظر ڈالتے ہیں جو نوجوانوں کی عالمی بے روزگاری کے بارے میں بات کرتا ہے۔
ازگر پانڈاس ٹیوٹوریل: نوجوانوں کے بے روزگاری کے اعداد و شمار کا تجزیہ کرنے کے لئے کیس استعمال کریں
مسئلہ یہ بیان :آپ کو ایک ڈیٹاسیٹ دیا گیا ہے 2010 سے 2014 تک عالمی سطح پر بے روزگار نوجوانوں کی فیصد پر مشتمل ہے۔ آپ کو یہ ڈیٹاسیٹ استعمال کرنا ہوگا اور 2010-2011 سے ہر ملک کے نوجوانوں کی فیصد میں تبدیلی تلاش کرنا ہوگی۔
پہلے ، آئیے ڈیٹاسیٹ کو سمجھیں جس میں کالم کنٹری کا نام ، کنٹری کوڈ اور 2010 سے 2014 تک کے سال پر مشتمل ہے۔ اب پانڈوں کا استعمال کرتے ہوئے ، ہم .csv فائل فارمیٹ فائل کو پڑھنے کے لئے “pd.read_csv” استعمال کریں گے۔
ذیل میں اسکرین شاٹ کا حوالہ دیں:
آئیے ہم آگے بڑھیں اور اعداد و شمار کا تجزیہ کریں جس میں ہم 2010 سے 2011 کے درمیان بے روزگار نوجوانوں میں ہونے والی فیصد کی تبدیلی کا پتہ لگانے والے ہیں۔ لائبریری ، جو ازگر میں دیکھنے کے لئے ایک طاقتور لائبریری ہے۔ اسے ازگر اسکرپٹ ، شیل ، ویب ایپلیکیشن سرورز اور دیگر GUI ٹول کٹس میں استعمال کیا جاسکتا ہے۔ آپ یہاں مزید پڑھنے کا استعمال کرسکتے ہیں:
اب ، ہم پیئچارم میں کوڈ کو لاگو کریں:
درآمد پنڈوں کے طور پر پی ڈی درآمد matplotlib.pyplot بطور plt بطور matplotlib درآمد طرز اسٹائل.یوس ('پانچواں نائٹی') ملک = pd.read_csv ('D: صارفین آیوشی ڈاونلوڈ ورلڈ-بینک-یوتھ-بیروزگاری API_ILO_country_YU.csv' ، انڈیکس_کول = 0) df =۔ ہیڈ (5) df = df.set_index (['کنٹری کوڈ']) sd = sd.reindex (کالم = ['2010'، '2011']) db = sd.diff (محور = 1) db.plot (قسم = 'بار') plt.show ()
جیسا کہ آپ اوپر دیکھ سکتے ہیں ، میں نے ملک کے ڈیٹا فریم کے اوپر 5 قطاروں پر تجزیہ کیا ہے۔ اس کے بعد ، میں نے ایک انڈیکس ویلیو کو 'کنٹری کوڈ' اور پھر کالم کو 2010 اور 2011 میں دوبارہ انڈیکس کرنے کی تعریف کی ہے۔ پھر ، ہمارے پاس ایک اور ڈیٹا فریم ڈی بی ہے ، جو دو کالموں یا بیروزگار نوجوانوں کی فیصد تبدیلی کے فرق کو پرنٹ کرتا ہے۔ 2010 سے لے کر 2011 تک۔ آخر میں ، میں نے ازگر میں میٹپلوٹلیب لائبریری کا استعمال کرتے ہوئے ایک بارپلٹ کی منصوبہ بندی کی ہے۔
اب اگر آپ نے مذکورہ پلاٹ پر غور کیا تو ، 2010 سے 2011 کے درمیان افغانستان (اے ایف جی) میں ، تقریبا بے روزگار نوجوانوں میں اضافہ ہوا ہے۔ 0.25٪۔ پھر انگولا (اے جی او) میں ، ایک منفی رجحان ہے جس کا مطلب ہے کہ بے روزگار نوجوانوں کی فیصد کو کم کردیا گیا ہے۔ اسی طرح ، آپ ڈیٹا کے مختلف سیٹوں پر تجزیہ کرسکتے ہیں۔
مجھے امید ہے کہ 'ازگر پانڈاس ٹیوٹوریل' پر میرا بلاگ آپ کے لئے موزوں تھا۔ اس کی مختلف ایپلی کیشنز کے ساتھ ازگر میں گہرائی سے آگاہی حاصل کرنے کے ل you ، آپ براہ راست داخلہ لے سکتے ہیں بذریعہ ایڈوریکا 24/7 معاونت اور زندگی بھر رسائی۔
ہمارے لئے ایک سوال ہے؟ برائے مہربانی اس 'ازگر پانڈاس ٹیوٹوریل' بلاگ کے تبصرے سیکشن میں اس کا تذکرہ کریں اور ہم جلد از جلد آپ کے پاس واپس آجائیں گے۔