برای مشاهده یافته ها از کلید Enter و برای خروج از کلید Esc استفاده کنید.

محاسبات آماری در R : دیتاست ها

بررسی قابلیت های تحلیل آماری داده ها در زبان R بدون استفاده از داده های واقعی آنچنان که باید نمی تواند قدرت این زبان را نشان دهد. علاوه بر این، از آنجاییکه رویکرد مجموعه آر-آکادمی ارائه آموزش های کاربردی است، پس از مرور مقدمات زبان R در بخش های پیشین، از این قسمت به بعد تلاش می شود که روش ها و الگوریتم ها را در مواردی که به فرایند آموزش کمک می کند، بر روی داده های واقعی اعمال کنیم.

دیتاست ها در R

به صورت کلی می توان از سه منبع دیتاست های استاندارد و پراستفاده را برای کار در محیط R به دست آورد. نخستین روش که برای تمامی زبان های دیگر نیز قابل به کارگیری است، استفاده از وب سایت های و Repository های شناخته شده است که مجموعه گسترده ای از دیتاست ها را در قالب های مختلف (از جمله CSV و XML) در اختیار پژوهشگران و علاقه مندان قرار می دهد. چند نمونه معروف از این Repository ها عبارتند از :

https://datasetsearch.research.google.com

https://www.kaggle.com/datasets

https://archive.ics.uci.edu/datasets

دیتاست های اختصاصی R

مسیر مطمئن دیگر برای دسترسی به دیتاست ها، استفاده از داده های همراه پکیج های مختلف در زبان R است. به صورت کلی، بیشتر پکیج ها برای آزمایش الگوریتم ها و توابعی که معرفی کرده اند، دیتاست هایی را نیز ارائه کرده اند یا برخی از دیتاست های موجود را در برای دسترسی آسان تر، به همراه پکیج مورد نظر در اختیار برنامه نویس ها قرار داده اند. برای آگاهی از این که چه دیتاست هایی همراه هر پکیج قرار دارند، ابتدا باید آن پکیج نصب و سپس بارگذاری شود. پس از آن، دستور ()data دیتاست های همراه پکیج را نمایش می دهد.

به عنوان مثال، تصویر زیر فهرست دیتاست های همراه پکیج cluster را نمایش می دهد.

نکته: برای اطلاع از پکیج های نصب شده بر روی محیط نسخه ای از R که با آن کار می کنید، از دستور ()installed.packages استفاده کنید.

سومین راه برای استفاده از دیتاست ها در محیط R، به کارگیری دیتاست هایی است که فارغ از پکیج های نصب شده، در محیط پایه (Base) زبان R قابل بهره برداری هستند. برای اطلاع از این دیتاست ها تنها لازم است که دستور ()data را اجرا کنید.