برای مشاهده یافته ها از کلید Enter و برای خروج از کلید Esc استفاده کنید.

محاسبات آماری در R : تحلیل اولیه داده ها (بخش دوم)

پس از بررسی چگونگی به دست آوردن مقادیر کمینه و بیشینه بر روی یک مجموعه داده ای، در این قسمت یک شاخص آماری مهم دیگر به نام میانگین معرفی می شود. با اینحال، پرداختن به تفاوت این شاخص با موارد مشابه دیگر، پیش نیاز استفاده از این تحلیل آماری است.

میانگین، میانه و مد : تفاوت چیست؟

میانگین (Mean)، میانه (Median) و مد (Mode) یا نما سه شاخص مهم آماری هستند که از آن ها با عنوان شاخص های مرکزی یا معیارهای گرایش به مرکز (Central Tendency) یاد می شود. دلیل این نامگذاری این است که این شاخص ها توزیعی از مشاهدات (Observations) و یا مقادیر اندازه گیری شده را به نوعی خلاصه کرده و توصیفی از وضعیت آن ها ارائه می کنند. به بیان دیگر، اگرچه هر کدام از این شاخص ها در قالب یک عدد ارائه می شوند، آن مقدار نماینده مجموعه داده تحلیل شده است.

میانگین پرکاربردترین شاخص از این مجموعه است و روش محاسبه آن نیز بسیار ساده است: مجموع مقادیر تقسیم بر تعداد آن ها. درباره میانگین البته چند نکته مهم وجود دارد. نخست اینکه این معیار تنها برای داده های عددی (مقادیر کمی) قابل استفاده است و به عنوان نقطه ضعف آن باید گفت که این شاخص به شدت تحت تاثیر مقادیر پرت (outliers) قرار می گیرد. برای توضیح بیشتر این مفهوم، میانگین مقادیر عددی 2، 400، 150 و 1738 را درنظر بگیرید که برابر با 5/572 می باشد. همانطور که به وضوح مشخص است، این میانگین نماینده خوبی برای توزیع موجود میان اعداد نیست. به همین دلیل، در موارد کاربردی، اغلب سعی می شود که میانگین همراه با معیار دیگری (میانه) مورد استفاده قرار بگیرد تا درک بهتری از داده ها ارائه کند.

در سوی دیگر، محاسبه میانه در مواردی کاربرد دارد که متغیرها (مقادیر) قابل مرتب شدن به صورت صعودی باشند. ساز و کار این معیار به این صورت است که پس از مرتب شدن مقادیر از کوچک به بزرگ، داده ای که در وسط این مجموعه (از نظر جایگاه) قرار می گیرد، به عنوان میانه در نظر گرفته می شود. به عبارت دیگر، نیمی از داده ها کوچکتر از این شاخص خواهند بود و نیمی دیگر، بزرگتر از آن. البته این رویکرد ممکن است چندان اطلاعات دقیقی هم به ما ندهد، چرا که برای محاسبه این معیار، تعداد اعداد مهم است و مقادیر بالاتر و پایین تر از میانه اهمیتی ندارند. به عنوان مثال، میانه مجموعه 12، 38، 1، 98 و 149 عدد 38 خواهد بود.

معیار سوم که ممکن است در برخی موارد با نمونه های پیش اشتباه گرفته شود، مُد یا نما است که نمایانگر مقداری از داده هاست که بیشترین تکرار (فراوانی) را در مجموعه مورد نظر دارد و به همین دلیل می توان از این شاخص برای بررسی داده های غیرعددی (کیفی) هم استفاده کرد. توجه داشته باشیم که اگر در یک مجموعه تمامی داده ها به یک اندازه تکرار شده باشند، نما وجود ندارد.

محاسبه میانگین، میانه و نما در R

به زبان R برگردیم و ببینیم محاسبه میانگین در زبان R به چه صورت است. توجه داشته باشید که برای تمرین های این بخش همچنان بر روی دیتاست mtcars متمرکز هستیم.

برای محاسبه میانگین و میانه مقادیر یک ستون (متغیر) مشخص، به صورت زیر عمل می کنیم.

cars <- mtcars
mean(cars$mpg)
# [1] 20.09062

median(cars$mpg)
# [1] 19.2

از سوی دیگر، برای محاسبه نما، از آنجاییکه تابع اختصاصی در زبان R وجود ندارد، باید به طریقی این فرایند را شبیه سازی کرد و کد مناسب آن را نوشت. البته با توجه به مفهوم این شاخص، راه های متفاوتی را می توان برای انجام آن ابداع کرد که در آینده در یک بخش مجزا به شرح دقیق چندین راه حل نوآورانه در این زمینه می پردازیم. با اینحال، در این قسمت و برای تکمیل شدن بحث، به یک راه حل اشاره می کنیم و توضیح بیشتر درباره آن را همراه با مقایسه سایر روش ها به آینده (نزدیک!) موکول می کنیم.

البته برای رفع کنجکاوی شما می توانیم بگوییم که تابع table فهرستی از متغیرها و تعداد تکرار آن ها ایجاد می کند و سپس این مقادیر به صورت نزولی مرتب شده (به وسیله تابع sort) و نخستین مقدار که به عنوان پرتکرارترین آیتم است را برمی گرداند.

names(sort(-table(cars$mpg)))[1]
# [1] "10.4"