اس بلاگ میں ، آپ کو سمجھ آ جائے گی کہ کے-مطلب کلسٹرنگ کیا ہے اور یہ امریکی ریاستوں کی مختلف ریاستوں میں جمع کردہ مجرمانہ اعداد و شمار پر کس طرح نافذ کیا جاسکتا ہے۔ اعداد و شمار میں 1973 میں 50 امریکی ریاستوں میں سے ہر ایک میں 100،000 باشندوں کی گرفتاریوں میں حملہ ، قتل اور عصمت دری جیسے جرائم شامل ہیں۔ اعداد و شمار کے تجزیے کے ساتھ ساتھ آپ یہ بھی سیکھیں گے:
- کلسٹروں کی زیادہ سے زیادہ تعداد کا پتہ لگانا۔
- کم سے کم مسخ کرنا
- کہنی کے منحنی خطوط کو تخلیق اور تجزیہ کرنا۔
- K- کا مطلب الگورتھم کے طریقہ کار کو سمجھنا۔
آئیے تجزیہ کے ساتھ آغاز کریں۔ اعداد و شمار کی طرح ہے:

اس ڈیٹاسیٹ کو ڈاؤن لوڈ کرنے کے لئے تصویر پر کلک کریں
اس ڈیٹاسیٹ کی ضرورت ہے؟ اسے ڈاؤن لوڈ کرنے کے لئے مذکورہ بالا تصویر پر کلک کریں۔
آئیے تجزیے کے ل for ڈیٹا تیار کریں۔ ایسا کرنے کے ل we ، ہمیں کسی بھی NA اقدار کو ہٹانا چاہئے جو ڈیٹا میں موجود ہوسکیں اور ڈیٹا کو میٹرکس میں تبدیل کریں۔
> جرائم0 جرم # (جرم) نمبر [1:50، 1: 4] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... - اٹار (*، 'نام نام') = فہرست 2 .. $: chr [1 : 50] 'الاباما' 'الاسکا' 'ایریزونا' 'آرکنساس' ... .. $: chr [1: 4] 'قتل' 'حملہ' 'اربن پوپ' 'ریپ'
آئیے ہم کلسٹروں کی تعداد 5 بنائیں۔ کامین () فنکشن ان پٹ ڈیٹا اور کلسٹرز کی تعداد لیتا ہے جس میں ڈیٹا کلسٹر کرنا ہے۔ نحو یہ ہے: کمین (ڈیٹا ، کے) جہاں کے کلسٹر مراکز کی تعداد ہے۔
> سی ایل کلاس (سی ایل) [1] 'کمین'
کلسٹرنگ کا تجزیہ:
> str (cl) 9 $ کلسٹر کی فہرست: نامزد انٹ [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- اٹار (*، 'نام') = chr [1:50] ' الاباما '' الاسکا '' اریزونا '' آرکنساس '... $ مراکز: نمبر [1: 5، 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- attr (*،' Damenames ') = فہرست 2 .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'قتل' 'حملہ' 'اربن پوپ' 'عصمت دری '$ ٹوٹس: نمبر 355808 $ داخلہ: نمبر [1: 5] 4548 2286 16272 1480 3653 $ ٹوٹل.وایئینس: نمبر 28240 $ بیچس: نمبر 327568 $ سائز: انٹ [1: 5] 10 9 14 10 7 $ ایٹر: انٹ 3 $ ifault: int 0 - attr (*، 'class') = chr 'kmeans'
str () فنکشن kmeans کی ساخت دیتا ہے جس میں مختلف پیرامیٹرز جیسے انڈرس ، بیونڈس ، وغیرہ شامل ہیں ، تجزیہ کیا جاتا ہے جس سے آپ kmeans کی کارکردگی کا پتہ لگاسکتے ہیں۔
بیچنس: مربعوں کے مابین یعنی انٹراسکلوسٹر مماثلت
انڈرس: مربع کی مجموعی کے اندر اندر
ٹوٹ وِتھَنَس: تمام کلسٹرز کے تمام انٹورس کا مجموعہ یعنی کل انٹرا کلسٹر مماثلت
ایک اچھا کلسٹرنگ ، کے اندر اندر کی کم قیمت اور بیچنس کی زیادہ قیمت ہوگی جو ابتدائی طور پر منتخب ہونے والے کلسٹرز ‘کے’ کی تعداد پر منحصر ہے۔ آئیے ہم دیکھتے ہیں کہ ہم ’کے‘ کی زیادہ سے زیادہ قیمت کیسے تلاش کرسکتے ہیں۔
’کے‘ کی زیادہ سے زیادہ قیمت معلوم کرنا
‘کے’ کی ایک زیادہ سے زیادہ قیمت وہ قدر ہے جو ہمیں کم سے کم مسخ والے کلسٹروں کا ایک مجموعہ دیتی ہے۔ اس سے زیادہ مسخ ، بدتر کلسٹرز تشکیل پائیں گے۔
مسخ:
مسخ کا اندازہ ہر ایک کلسٹر سے ‘انڈرس’ کے لحاظ سے کیا جاسکتا ہے۔ کسی خاص کلسٹر کی ’انڈرس‘ کی قدر کم ، زیادہ گنجان آبادی کی ہوگی ، اس طرح کم سے کم مسخ ہوجائے گی۔
kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }
یہ فنکشن ڈیٹا اور k کی قدر اٹھاتا ہے اور اس کے ل ‘‘ کلومیٹر $ ٹوٹ وینٹنس ’واپس کرتا ہے۔ ‘کلومیٹر $ ٹیوٹ ونس’ مربعوں کے کلسٹر کلسٹر جوہر ہے ، اس طرح بنائے گئے 5 کلسٹروں کا اندراج بھی شامل ہے یعنی۔رقم (اندرونی)
. ‘کلومیٹر $ ٹوٹ وینٹنس’ کی قدر زیادہ ، مسخ زیادہ تر ہوگی۔
k = 5 کے لئے ، اندوراس 24417.02 ہے
جاوا میں کتنے محفوظ الفاظ
> kmeans.wss.k (جرم ، 5) [1] 24417.02
آئیے k کی قدر کو 5 سے بڑھا کر 10 کرتے ہیں ، اور فرق دیکھتے ہیں۔
> kmeans.wss.k (جرم ، 10) [1] 11083.04
یہ دیکھا جاسکتا ہے کہ جیسے جیسے کے کی قیمت میں اضافہ ہوتا ہے ، مسخ کم ہوتا جاتا ہے۔
ہم ‘کلومیٹر $ ٹوتھ ان’ کی مختلف اقدار کو نکال سکتے ہیں اور مسخ اور K کی قدر کے مابین تعلقات کو تلاش کرنے کے لئے انہیں گراف میں پلاٹ کرسکتے ہیں۔ مندرجہ ذیل فنکشن ہمارے لئے یہ کام کرتا ہے:
> kmeans.dis maxk = 10> dis = kmeans.dis (جرم ، میکسیک)> پلاٹ (1: میکسک ، ڈس ، ٹائپ = 'بی' ، xlab = 'کلسٹروں کی تعداد' ، + یلاب = 'مسخ' ، + کول = 'نیلے')
ٹا دا !!! اس طرح ہمارے ساتھ مشہور کہنی کا وکر ہے۔
کہنی کا وکر:
یہ 'کے' ، کلسٹروں کی تعداد اور 'ٹٹو ویتن' (یا مسخ) کے درمیان k کی ہر قیمت کے درمیان سازش ہے۔ آپ دیکھ سکتے ہیں کہ جب کلسٹر کی تعداد کم ہو تو ، مسخ میں بتدریج کمی واقع ہوتی جارہی ہے لیکن جیسے ہی ہم k کی قدر میں اضافہ کرتے رہتے ہیں ، مسخ شدہ اقدار میں کمی کی شرح مستقل ہوتی جاتی ہے۔
K کی یہ قدر جس سے آگے مسخ کی شرح مستحکم ہوجاتی ہے وہ زیادہ سے زیادہ قیمت ہے۔ یہاں k = 4۔
آئیے یہ سمجھنے کے لئے کچھ حرکت پذیری کا اطلاق کریں کہ کس طرح آر نے ہمیں کلسٹرڈ نتائج دیئے۔
> لائبریری (حرکت پذیری)> cl<- kmeans.ani(crime, 4)
Kmeans کلسٹرنگ الگورتھم:
آئیے ہم الگورتھم کو سمجھتے ہیں جس پر K- کا مطلب ہے کلسٹرنگ کام کرتی ہے:
مرحلہ نمبر 1. اگر k = 4 ، ہم 4 بے ترتیب پوائنٹس منتخب کرتے ہیں اور ان کو یہ تصور کرتے ہیں کہ کلسٹرز بنائے جانے کے لئے کلسٹر سینٹر بنیں۔
مرحلہ 2. ہم خلا سے بے ترتیب ڈیٹا پوائنٹ اٹھاتے ہیں اور تمام 4 کلسٹر مراکز سے اس کا فاصلہ معلوم کرتے ہیں۔ اگر ڈیٹا پوائنٹ گرین کلسٹر سینٹر کے قریب ہے تو ، اس کا رنگ سبز ہے اور اسی طرح تمام پوائنٹس کو 4 کلسٹروں میں درجہ بندی کیا گیا ہے۔
مرحلہ # 3۔ اب ہم تمام گرین پوائنٹس کے سنٹرایڈ کا حساب لگاتے ہیں اور اس کلسٹر کے کلسٹر سینٹر کے طور پر اس مقام کو تفویض کرتے ہیں۔
اسی طرح ، ہم 4 رنگ کے (کلسٹرڈ) پوائنٹس کے لئے سینٹروڈس کا حساب لگاتے ہیں اور کلسٹر سینٹرز کے طور پر نئے سینٹروڈس تفویض کرتے ہیں۔
مرحلہ # 4۔ مرحلہ 2 اور مرحلہ 3 تکراری طور پر چلائے جاتے ہیں ، جب تک کہ کلسٹر مراکز کسی مقام پر اکٹھے نہ ہوں اور اب حرکت نہیں کریں گے۔
اس طرح ، ہم کنورجڈ کلسٹرز مراکز تک پہنچتے ہیں۔
یہ دیکھا جاسکتا ہے کہ اعداد و شمار کو 4 کلسٹروں میں تقسیم کیا گیا ہے۔ کلسٹر مراکز یہ ہیں:
> CL $ مراکز قتل قتل حملہ اربن پپو ریپ ٹیکساس
کلسٹر -4 ‘نیو میکسیکو’ والا کلسٹر سینٹر چونکہ سب سے زیادہ آبادی کے ساتھ جرائم کی شرح بھی ایک بہت بڑا ہے۔
کلسٹر -3 اور کلسٹر -2 کی پیروی کریں۔
ہر ریاست کو ایک کلسٹر تفویض کیا جاتا ہے ، اس پر منحصر ہے کہ اب ہم اس کی جرائم کی درجہ بندی کی پیش گوئی کرسکتے ہیں۔ آؤٹ پٹ کی طرح ہے:
ہمارے لئے ایک سوال ہے؟ برائے کرم اس کا تذکرہ سیکشن میں ذکر کریں اور ہم آپ کو واپس ملیں گے۔
متعلقہ اشاعت: