برای مشاهده یافته ها از کلید Enter و برای خروج از کلید Esc استفاده کنید.

کار با فایل های صفحه گسترده اکسل در R

در این آموزش، نحوه بارگیری داده ها از صفحات گسترده اکسل در R را مورد بررسی قرار می دهیم. به منظور کار با صفحات گسترده Excel، یکی از بهترین پکیج های موجود readxl می باشد. برای نصب این پکیج سه روش وجود دارد:

به طور مستقیم پکیج readxl را به وسیله دستور زیر نصب کنیم.

install.packages("readxl")

در هنگان نصب پکیج tidyverse ، پکیج readxl نیز به طور خودکار نصب خواهد شد.

install.packages("tidyverse")

و در نهایت، نصب پکیج یاد شده از روی Git به صورت زیر:

#install.packages("pak")

pak::pak("tidyverse/readxl")

پس از نصب و برای استفاده از پکیج، می بایست در ابتدا آن را در بارگذاری کرد.

library(readxl)
library(tidyverse)

بارگذاری فایل های اکسل در حافظه

توابع مختلفی برای انجام این کار در کتابخانه وجود دارد:

  1. تابع read_xls: فایل های اکسل با پسوند xls را می خواند.
  2. تابع read_xlsx: فایل های اکسل با پسند xlsx را می خواند.
  3. تابع read_excel: فایل های اکسل با هر دو پسوند xls و xlsx را می خواند.

برای انجام این تمرین از تابع read_excel جهت بارگذاری فایل اکسل تمرین در حافظه استفاده خواهیم کرد.

با فرض اینکه فایل مورد نظر (که در این تمرین guests.xlsx نام دارد) را در دایرکتوری کاری قرار داده ایم، فرایند بارگذاری فایل به محیط R را به صورت زیر انجام می دهیم.

guests <- read_excel("guests.xlsx")
View(guests)

همانطور که در تصویر زیر هم مشاهده می کنید، به وسیله دستور بالا محتویات فایل guests داخل حافظه بارگذاری شده و درون متغیری به نام guests قرار می گیرد.

حالا تصور کنید که از ما خواسته شده است که (براساس نیازمندی های پروژه) در هنگام بارگذاری نام ستون ها را تغییر دهیم. برای این کار از طریق ویژگی col_names این کار را انجام دهیم.

guests <- read_excel("guests.xlsx", col_names = c("Guest_ID", "Last_Name", "Favourite_Food", "Meal_Plan", "Guest_Age"))
View(guests)

همانگونه که در تصویر بالا مشاهده می کنیم، اگرچه مقادیر ستون ها تغییر یافت، ولی با یک اتفاق غیرمنتظره روبه رو شدیم: نام ستون های قبلی در سطر اول قرار گرفت. برای اینکه این مشکل پیش نیاید باید از آرگومان skip استفاده کنیم.

guests <- read_excel("guests.xlsx", col_names = c("Guest_ID", "Last_Name", "Favourite_Food", "Meal_Plan", "Guest_Age"), skip=1)
View(guests)

در میان داده های فایل، مقادیر نامشخص یا از دست رفته (Missing Values) وجود دارند ولی در قالب ها مختلف. برای یکسان سازی، در مرحله بعد می خواهیم مقدار N/A را به قالب مقادیر نامشخص سیستمی تبدیل کنیم.

guests <- read_excel("guests.xlsx", col_names = c("Guest_ID", "Last_Name", "Favourite_Food", "Meal_Plan", "Guest_Age"), skip=1, na = c("" ,"N/A"))

View(guests)

با استفاده از دستور summary خلاصه ای از وضعیت و ویژگی های فایل را خواهیم دید:

summary(guests)