R میں لکیری امتیازی تجزیہ کیسے نافذ کریں؟



یہ مضمون آپ کو بتائے گا کہ خطی امتیازی تجزیہ کیا ہے اور آر پروگرامنگ زبان کا استعمال کرتے ہوئے آپ کو ایک تفصیلی مظاہرہ بھی فراہم کرے گا۔

لکیری امتیازی تجزیہ ایک بہت مشہور مشین لرننگ تکنیک ہے جو درجہ بندی کی دشواریوں کو حل کرنے کے لئے استعمال کی جاتی ہے۔ اس مضمون میں ہم اس تکنیک کے پیچھے بدیہی اور ریاضی کو سمجھنے کی کوشش کریں گے۔ میں ایل ڈی اے کے نفاذ کی ایک مثال R بھی فراہم کی جاتی ہے۔

تو ہمیں اس کے بعد شروع کریں





لکیری امتیازی تجزیہ مفروضہ

لکیری امتیازی تجزیہ مندرجہ ذیل مفروضوں پر مبنی ہے:

  • منحصر متغیر Y مجرد ہے اس مضمون میں ہم فرض کریں گے کہ منحصر متغیر ثنائی ہے اور طبقاتی اقدار لیتا ہے 1 +1، -1} . کلاس سے تعلق رکھنے والے نمونے کا امکان +1 ، یعنی P (Y = +1) = p . لہذا ، طبقے سے تعلق رکھنے والے نمونے کا امکان ایک ہے 1-ص .



  • آزاد متغیر (زبانیں) ایکس گاوسی تقسیم سے آتے ہیں۔ گاؤس کی تقسیم کا مطلب کلاس لیبل پر منحصر ہے Y . یعنی اگر Y میں = +1 ، پھر کا مطلب ہے ایکس میں ہے & # 120583 +1 ، ورنہ یہ ہے & # 120583 ایک . تغیر & # 120590 2 دونوں کلاسوں کے لئے یکساں ہے۔ علمی طور پر ، X | (Y = +1) ~ N (& # 120583) +1 ، اور # 120590 2 ) اور X | (Y = -1) ~ N (& # 120583) ایک ، اور # 120590 2 ) ، کہاں این عام تقسیم کو ظاہر کرتا ہے۔

اس معلومات سے مشترکہ تقسیم کی تعمیر ممکن ہے P (X ، Y) آزاد اور منحصر متغیر کے لئے. لہذا ، ایل ڈی اے کا تعلق کلاس سے ہے جنریٹو کلاسیفائر ماڈل . قریبی سے وابستہ جنریٹری درجہ بند کرنے والا طبقاتی امتیاز کا تجزیہ (کیو ڈی اے) ہے۔ یہ ایل ڈی اے کی ایک ہی طرح کے تمام مفروضوں پر مبنی ہے ، سوائے اس کے کہ کلاس کی مختلف حالتیں مختلف ہیں۔

آئیے لکیری امتیازی تجزیہ آرٹیکل کو جاری رکھیں اور دیکھیں

انترجشتھان

کلاس مشروط گوسی تقسیم کے بارے میں غور کریں ایکس کلاس دی Y . مندرجہ ذیل اعداد و شمار تقسیم کے کثافت کے افعال کو ظاہر کرتا ہے۔ اس اعداد و شمار میں ، اگر Y = +1 ، پھر کا مطلب ہے ایکس 10 ہے اور اگر Y = -1 ، مطلب 2 ہے۔ دونوں حالتوں میں فرق 2 ہے۔

انترجشتھان - لکیری امتیازی تجزیہ - ایڈیورکا

اب فرض کیج of کہ ایک نئی قیمت ایکس ہمیں دیا جاتا ہے۔ صرف اس کی نشاندہی کرنے دیں ایکس میں . کام اس کے لئے ممکنہ طور پر کلاس لیبل کا تعین کرنا ہے ایکس میں ، یعنی Y میں . سادگی کے لئے فرض کریں کہ امکان پی کلاس سے تعلق رکھنے والے نمونے کا +1 طبقے سے تعلق رکھنے والے جیسا ہی ہے ایک ، یعنی p = 0.5 .

بدیہی طور پر ، یہ کہنا معنی خیز ہے کہ اگر ایکس میں کے قریب ہے & # 120583 +1 جیسا کہ یہ ہے & # 120583 ایک ، پھر اس کا امکان زیادہ ہے Y میں = +1 . مزید رسمی طور پر ، Y میں = +1 اگر:

| x میں - اور # 120583 +1 |<|x میں - اور # 120583 ایک |

معیاری انحراف کے ذریعہ دونوں اطراف کو معمول بنانا:

ازگر میں فنکشن میں جائیں

| x میں - اور # 120583 +1 | / & # 120590<|x میں - اور # 120583 ایک | / & # 120590

دونوں اطراف مربع:

(ایکس میں - اور # 120583 +1 ) 2 / & # 120590 2 <(x میں - اور # 120583 ایک ) 2 / & # 120590 2

ایکس میں 2 / & # 120590 2 + & # 120583 +1 2 / & # 120590 2 - 2 ایکس میں & # 120583 +1 / & # 120590 2 میں 2 / & # 120590 2 + & # 120583 ایک 2 / & # 120590 2 - 2 ایکس میں & # 120583 ایک / & # 120590 2

2 ایکس میں (& # 120583) ایک - اور # 120583 +1 ) / & # 120590 2 - (& # 120583) ایک 2 / & # 120590 2 - اور # 120583 +1 2 / & # 120590 2 )<0

-2 ایکس میں (& # 120583) ایک - اور # 120583 +1 ) / & # 120590 2 + (& # 120583) ایک 2 / & # 120590 2 - اور # 120583 +1 2 / & # 120590 2 )> 0

مذکورہ بالا اظہار شکل کا ہے bx میں + c> 0 کہاں b = -2 (& # 120583) ایک - اور # 120583 +1 ) / & # 120590 2 اور c = (& # 120583) ایک 2 / & # 120590 2 - اور # 120583 +1 2 / & # 120590 2 ) .

یہ ظاہر ہے کہ مساوات کی شکل ہے لکیری لہذا ، لکیری امتیازی تجزیہ کا نام ہے۔

آئیے ہم لکیری امتیازی تجزیہ آرٹیکل کو جاری رکھیں اور دیکھیں ،

ایل ڈی اے کی ریاضی کی وضاحت

ایل ڈی اے کے لئے اظہار کی ریاضیاتی ماخوذ اس طرح کے تصورات پر مبنی ہے بیس رول اور بائیس زیادہ سے زیادہ درجہ بندی کرنے والا . دلچسپی رکھنے والے قارئین کو ان تصورات کے بارے میں مزید پڑھنے کی ترغیب دی جاتی ہے۔ اظہار حاصل کرنے کا ایک طریقہ ڈھونڈ سکتا ہے یہاں .

ہم اپنے مخصوص معاملے میں براہ راست اظہار فراہم کریں گے جہاں Y دو کلاس لیتا ہے 1 +1، -1} . ہم پچھلے حصے میں دکھائی جانے والی بصیرت کو عام معاملہ تک بھی بڑھا دیں گے ایکس کثیر جہتی ہوسکتا ہے۔ چلو کہتے ہیں کہ وہاں ہیں کرنے کے لئے آزاد متغیر. اس معاملے میں ، کلاس کا مطلب ہے & # 120583 ایک اور & # 120583 +1 طول و عرض کے ویکٹر ہوں گے k * 1 اور تغیر کووریئنس میٹرکس & # 120622 طول و عرض کا ایک میٹرکس ہوگا k * k .

درجہ بندی تقریب کے طور پر دیا گیا ہے

Y = h (X) = نشانی (b) ٹی X + c)

کہاں،

b = -2 & # 120622 ایک (& # 120583) ایک - اور # 120583 +1 )

c = & # 120583 ایک ٹی & # 120622 ایک & # 120583 ایک - اور # 120583 ایک ٹی & # 120622 ایک & # 120583 ایک {-2 ln (1-p) / p

سائن فنکشن لوٹتا ہے +1 اگر اظہار b ٹی x + c> 0 ، بصورت دیگر یہ واپس آجاتا ہے ایک . میں قدرتی لاگ اصطلاح c اس حقیقت کو ایڈجسٹ کرنے کے لئے موجود ہے کہ طبقے کے امکانات دونوں کلاسوں کے لئے برابر نہیں ہونے کی ضرورت ہے ، یعنی۔ پی (0 ، 1) ، اور صرف 0.5 کے درمیان کوئی قیمت نہیں ہوسکتی ہے۔

ماڈل پیرامیٹرز سیکھنا

کے ساتھ ایک ڈیٹاسیٹ دیا این ڈیٹا پوائنٹس (ایکس ایک ، Y ایک )، (ایکس 2 ، Y 2 )،… (ایکس n ، Y n ) ، ہمیں اندازہ لگانے کی ضرورت ہے پی ، اور # 120583 ایک ، اور # 120583 +1 اور & # 120622 . اعدادوشمار کی تخمینہ لگانے کی ایک تکنیک زیادہ سے زیادہ امکانات کا تخمینہ ان پیرامیٹرز کا اندازہ لگانے کے لئے استعمال کیا جاتا ہے۔ مندرجہ بالا پیرامیٹرز کے لئے اظہارات ذیل میں دیئے گئے ہیں۔

& # 120583 +1 = (1 / این) +1 ) * & # 120506 i: یی = + 1 ایکس میں

& # 120583 ایک = (1 / این) ایک ) * & # 120506 i: یی = -1 ایکس میں

system.exit طریقہ ایپلی کیشن کو ختم کردے گا۔

p = N +1 / این

& # 120622 = (1 / N) * & # 120506میں = 1: N (ایکس میں - اور # 120583 میں ) (ایکس میں - اور # 120583 میں ) ٹی

کہاں این +1 = نمونے کی تعداد جہاں y میں = +1 اور این ایک = نمونے کی تعداد جہاں y میں = -1 .

مذکورہ بالا تاثرات کے ساتھ ، ایل ڈی اے ماڈل مکمل ہے۔ مندرجہ بالا تاثرات استعمال کرتے ہوئے ماڈل پیرامیٹرز کا اندازہ لگایا جاسکتا ہے اور ان کو درجہ بندی تقریب میں استعمال کرکے آزاد متغیر کی کسی بھی نئی ان پٹ ویلیو کا کلاس لیبل حاصل کیا جاسکتا ہے۔ ایکس .

آئیے لکیری امتیازی تجزیہ آرٹیکل کو جاری رکھیں اور دیکھیں

R میں مثال

مندرجہ ذیل کوڈ نے دو متغیر متغیروں کے ساتھ ایک ڈمی ڈیٹا تیار کیا ہے ایکس 1 اور ایکس 2 اور منحصر متغیر Y . کے لئے ایکس 1 اور ایکس 2 ، ہم اسباب کے ساتھ دو کثیر القومی گاوسی تقسیم سے نمونہ تیار کریں گے & # 120583 ایک = (2 ، 2) اور & # 120583 +1 = (6 ، 6) . نمونے میں سے 40٪ طبقے سے تعلق رکھتے ہیں +1 اور 60٪ طبقے سے تعلق رکھتے ہیں ایک لہذا ، پی = 0.4 .

لائبریری (ggplot2) لائبریری (MASS) لائبریری (mvtnorm) # بے ترتیب بائیواریٹ گاوس نمونہ var_covar = میٹرکس (ڈیٹا = سی (1.5 ، 0.3 ، 0.3 ، 1.5) ، نور = 2) # رینڈم بیواریئٹ گیسو نمونے کلاس + کے لئے 1 ایکسپلس 1<- rmvnorm(400, mean = c(6, 6), sigma = var_covar) # Random bivariate gaussian samples for class -1 Xminus1 <- rmvnorm(600, mean = c(2, 2), sigma = var_covar) #Samples for the dependent variable Y_samples <- c(rep(1, 400), rep(-1, 600)) #Combining the independent and dependent variables into a dataframe dataset <- as.data.frame(cbind(rbind(Xplus1, Xminus1), Y_samples)) colnames(dataset) <- c('X1', 'X2', 'Y') dataset$Y <- as.character(dataset$Y) #Plot the above samples and color by class labels ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y)) 

مندرجہ بالا اعداد و شمار میں ، نیلے رنگ کے نقطے کلاس کے نمونے پیش کرتے ہیں +1 اور سرخ رنگ کلاس کے نمونے کی نمائندگی کرتے ہیں ایک . نمونوں کے مابین کچھ وورلیپ ہوتا ہے ، یعنی کلاس کو ایک سادہ لائن سے مکمل طور پر الگ نہیں کیا جاسکتا۔ دوسرے الفاظ میں وہ بالکل ٹھیک نہیں ہیں خطی طور پر جدا جدا .

اب ہم مذکورہ اعداد و شمار کا استعمال کرکے ایل ڈی اے ماڈل کی تربیت کریں گے۔

# مندرجہ بالا ڈیٹاسیٹ ایل ڈی اے_ماڈل کا استعمال کرکے ایل ڈی اے ماڈل کو ٹرین کریں<- lda(Y ~ X1 + X2, data = dataset) #Print the LDA model lda_model 

آؤٹ پٹ:

گروپوں کے پہلے امکانات:

-گیارہ

0.6 0.4

گروپ کا مطلب ہے:

ایکس 1 ایکس 2

-1 1.928108 2.010226

1 5.961004 6.015438

لکیری امتیازی سلوک کے قابلیت:

ایل ڈی 1

ایکس 1 0.5646116

ایکس 2 0.5004175

جیسا کہ کوئی دیکھ سکتا ہے ، کلاس کے ذرائع ماڈل کے ذریعہ سیکھے گئے کلاس کے لئے (1.928108 ، 2.010226) ہیں ایک اور (5.961004 ، 6.015438) کلاس کے لئے +1 . یہ ذرائع کلاس کے بہت قریب ہیں اس کا مطلب ہے کہ ہم نے یہ بے ترتیب نمونے تیار کرنے کے لئے استعمال کیے تھے۔ گروپ کے لئے پیشگی امکان +1 پیرامیٹر کا تخمینہ ہے پی . b ویکٹر لکیری امتیازی صابن ہے۔

ہم اب اسی ڈیٹا کیلئے کلاس لیبل کی پیش گوئی کرنے کے لئے مذکورہ ماڈل کا استعمال کریں گے۔

# ایل ڈی اے ماڈل y_pred کا استعمال کرتے ہوئے مندرجہ بالا ڈیٹاسیٹ میں ہر نمونے کے لئے کلاس کی پیش گوئی کرنا<- predict(lda_model, newdata = dataset)$class #Adding the predictions as another column in the dataframe dataset$Y_lda_prediction <- as.character(y_pred) #Plot the above samples and color by actual and predicted class labels dataset$Y_actual_pred <- paste(dataset$Y, dataset$Y_lda_prediction, sep=',') ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y_actual_pred))

مذکورہ اعداد و شمار میں ، جامنی رنگ کے نمونے کلاس کے ہیں +1 جن کا ایل ڈی اے ماڈل نے درجہ بندی کیا۔ اسی طرح ، سرخ نمونے کلاس کے ہیں ایک جن کا صحیح درجہ بندی کیا گیا تھا۔ نیلے رنگ کلاس سے ہیں +1 لیکن کے طور پر غلط درجہ بندی کی گئی تھی ایک . سبز رنگ کلاس سے ہیں ایک جیسا کہ غلط کلاسیکی تھی +1 . غلط طبقات اس لئے ہو رہے ہیں کہ یہ نمونے ان کے اصل طبقاتی اوسط سے دوسرے طبقاتی وسیلہ (وسط) سے زیادہ قریب ہیں۔

یہ ہمیں اس مضمون کے آخر تک پہنچاتا ہے ، چیک کریں ایڈوریکا کے ذریعہ ، ایک قابل اعتماد آن لائن سیکھنے والی کمپنی جس کی دنیا بھر میں 250،000 سے زیادہ مطمئن سیکھنے والوں کے نیٹ ورک ہیں۔ آر ٹریننگ کے ساتھ ایڈیورکا کا ڈیٹا اینالیٹکس آپ کو آر پروگرامنگ ، ڈیٹا ہیرا پھیری ، ایکسپلوریٹری ڈیٹا انیلیسیس ، ڈیٹا ویژلائزیشن ، ڈیٹا مائننگ ، ریگریشن ، سینٹیمنٹ تجزیہ اور خوردہ ، سوشل میڈیا پر حقیقی زندگی کے معاملات کے مطالعہ کے لئے آر اسٹوڈیو کا استعمال کرنے میں مہارت حاصل کرنے میں مدد فراہم کرے گا۔

ہمارے لئے ایک سوال ہے؟ برائےکرم اس مضمون کے تبصرے والے حصے میں اس کا ذکر کریں اور ہم جلد از جلد آپ کے پاس مل جائیں گے۔