Sebelum melakukan analisis data, langkah pertama yang penting adalah membersihkan data dari kesalahan atau inkonsistensi. Hal ini termasuk menghapus duplikasi, memperbaiki kesalahan ketik, dan memastikan data yang digunakan adalah akurat.
Contoh Kode untuk Membersihkan Data di R:
# Menghapus nilai duplikat
data <- data[!duplicated(data), ]
# Menggantikan nilai kosong dengan NA
data[data == ""] <- NA
# Menghapus baris dengan nilai NA
data <- na.omit(data)
Data yang hilang atau tidak lengkap dapat mempengaruhi hasil analisis. Berikut adalah beberapa metode untuk menangani data yang hilang:
Imputasi: Menggantikan nilai yang hilang dengan nilai mean, median, atau modus.
Penghapusan: Menghapus baris atau kolom yang mengandung nilai yang hilang.
Contoh Kode untuk Mengimputasi Nilai yang Hilang di R:
# Mengimputasi nilai yang hilang dengan mean dari kolom
data$column_name[is.na(data$column_name)] <- mean(data$column_name, na.rm = TRUE)
Data yang terorganisir dengan baik memudahkan proses analisis. Struktur data yang baik meliputi penamaan kolom yang jelas, format yang konsisten, dan penyusunan data dalam bentuk yang dapat dianalisis dengan mudah.
Contoh Kode untuk Mengorganisir Data di R:
# Mengubah nama kolom
colnames(data) <- c("Nama", "Umur", "Jenis Kelamin", "Pendapatan")
# Mengurutkan data berdasarkan kolom tertentu
data <- data[order(data$Pendapatan), ]
Analisis deskriptif digunakan untuk menggambarkan karakteristik dasar dari data. Ini termasuk ukuran kecenderungan sentral (mean, median, modus), ukuran penyebaran (range, variansi, standar deviasi), dan visualisasi data.
# Menghitung mean
mean(data$Pendapatan)
# Menghitung median
median(data$Pendapatan)
# Menghitung modus
library(modeest)
mlv(data$Pendapatan, method = "mfv")
# Menghitung range
range(data$Pendapatan)
# Menghitung variansi
var(data$Pendapatan)
# Menghitung standar deviasi
sd(data$Pendapatan)
Contoh pembuatan histogram dan boxplot untuk visualisasi data:
# Membuat histogram
hist(data$Pendapatan, main="Histogram Pendapatan", xlab="Pendapatan", col="blue")
# Membuat boxplot
boxplot(data$Pendapatan, main="Boxplot Pendapatan", ylab="Pendapatan", col="red")