برای مشاهده یافته ها از کلید Enter و برای خروج از کلید Esc استفاده کنید.

محاسبات آماری در R : تحلیل اولیه داده ها (بخش سوم)

علاوه بر معیارهای به نسبت شناخته شده تری مانند میانگین و میانه، شاخص های آماری دیگر نیز وجود دارند که درک عمیق تری از داده ها در اختیار ما قرار می دهند. به صورت مشخص، چَندک ها (Quantiles) برخلاف عنوان کمی عجیب و غریبشان در تفسیر بهتر داده ها کاربردهای قابل توجهی دارند و توزیع (پراکندگی) داده ها را به صورت واضح تری به تحلیل گر ارائه می کنند. این معیار در مواردی نظیر امتیازهای آزمون های آماری، شاخص های سلامت، ارزیابی های جمعیتی و سایر اندازه گیری های اینچنینی کاربردهای فراوانی دارند.

تعریف چَندک

همانطور که در بخش قبل به آن اشاره شد، میانه تنها به جایگاه مقادیر توجه می کند و اهمیتی به پراکندگی مقادیر بالاتر و پایین تر از مقدار میانه نمی دهد. به منظور تمرکز بر این موارد و درک بهتر توزیع ها، از انواع مختلفی از معیار چَندک استفاده می شود.

در ادبیات آماری، چندک ها مقادیری با فاصله های مساوی هستند که مجموعه داده ها را به چندین (P) قسمت مساوی تقسیم می کنند. با این تعریف، میانه را می توانیم به عنوان ساده ترین چندک درنظر بگیریم که مجموعه داده ها را به دو قسمت تقسیم می کند.

بررسی جنبه های مختلف چندک ها خارج از محدوده این بخش است و در ادامه تنها به معرفی دو نوع از چندک ها که در تحلیل دیتاست mtcars با آن روبه رو شدیم، بسنده می کنیم.

محاسبه چندک ها در R

همانطور که در شکل زیر مشاهده می کنید، در تحلیل کلی دیتاست، مقاریر چارک نخست و چارک سوم ارائه شده اند.

حالا با یک مفهوم جدید رو به رو شدیم! چارک به عنوان یکی از انواع چندک، مجموعه داده ها را به چهار قسمت تقسیم می کند و برای هر مجموعه ای سه چهارک خواهیم داشت، چارک نخست (Q1)، چارک دوم (Q2) و چارک سوم (Q3). همانند محاسبه میانه، برای محاسبه چارک ها هم باید داده ها به ترتیب صعودی مرتب شوند و در این مجموعه مرتب، چارک نخست، مقداری است که 25 درصد از داده ها از آن کوچکتر هستند. چارک دوم، همانطور که احتمالا حدس زده اید، همان میانه است که نیمی از داده ها از آن بزرگتر و نیمی دیگر از آن کوچکتر هستند و در نهایت چارک سوم، مقداری است که 75 درصد داده ها از آن کوچکتر و 25 درصد داده ها از آن بزرگتر هستند.

برای محاسبه این مقادیر در R از تابع ()quantile استفاده می شود.

cars <- mtcars

quantile(cars$mpg, c(0.25))
# 25%
# 15.425

در کد بالا، با تعیین مقدار 25 درصد مشخص می کنیم که به دنیال یافتن چارک نخست هستیم و اگر این محدودیت را حذف کنیم، علاوه بر چارک ها، حد پایین و بالای صدک هم به عنوان خروجی تولید می شوند (حد بالا با عنوان چارک چهارم نیز شناخته می شود).

quantile(cars$mpg)
#    0%     25%    50%    75%   100%
# 10.400 15.425 19.200 22.800 33.900

برای یافتن چارک ها باید از مقادیر 0.25، 0.5 و 0.75 استفاده شود ولی اگر مقادیر دیگری را به عنوان پارامتر تعیین کنیم، صدک ها تولید می شوند. لازم به ذکر است که صدک مقداری است که درصد خاصی از نمونه ها از آن کمتر هستند. به عنوان مثال، 15 امین صدک به مقداری اشاره دارد که 15 درصد از نمونه ها (مقادیر) از آن کمتر هستند. پس در واقع خود چارک ها هم نوعی از صدک ها هستند.

quantile(cars$mpg, c(0.15))
# 15%
# 14.895