Section Artikel
Kumpulan data atau Data set adalah kumpulan data yang biasanya disajikan dalam bentuk tabel. Menurut Wikipedia kumpulan data dalam kasus data tabular, satu set data sesuai dengan satu atau lebih tabel database, di mana setiap kolom tabel mewakili variabel tertentu dan setiap baris sesuai dengan catatan tertentu dari set data yang dimaksud.
Ada kumpulan data bawaan yang populer di R yang disebut “mtcars” (Tes Jalan Mobil Tren Motor), yang diambil dari Majalah Motor Trend US tahun 1974.
Dalam contoh di bawah ini kita akan menggunakan kumpulan data mtcars
, sebagai tujuan contoh data statistik:
Contoh
# Tampilkan mtcars sebagai data set mtcars
Output :
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Kita bisa menggunakan tanda tanya (?
) untuk mendapatkan informasi tentang kumpulan data dari mtcars
:
Contoh
# Gunakan tanda tanya untuk mendapatkan informasi tentang kumpulan data ?mtcars
Output :
mtcars {datasets} R Documentation
Motor Trend Car Road Tests
Description
The data was extracted from the 1974 Motor Trend US magazine, and comprises fuel consumption and 10 aspects of automobile design and performance for 32 automobiles (1973–74 models).
Usage
mtcars
Format
A data frame with 32 observations on 11 (numeric) variables.
[, 1] | mpg | Miles/(US) gallon |
[, 2] | cyl | Number of cylinders |
[, 3] | disp | Displacement (cu.in.) |
[, 4] | hp | Gross horsepower |
[, 5] | drat | Rear axle ratio |
[, 6] | wt | Weight (1000 lbs) |
[, 7] | qsec | 1/4 mile time |
[, 8] | vs | Engine (0 = V-shaped, 1 = straight) |
[, 9] | am | Transmission (0 = automatic, 1 = manual) |
[,10] | gear | Number of forward gears |
[,11] | carb | Number of carburetors |
Note
Henderson and Velleman (1981) comment in a footnote to Table 1: ‘Hocking [original transcriber]'s noncrucial coding of the Mazda's rotary engine as a straight six-cylinder engine and the Porsche's flat engine as a V engine, as well as the inclusion of the diesel Mercedes 240D, have been retained to enable direct comparisons to be made with previous analyses.’
Source
Henderson and Velleman (1981), Building multiple regression models interactively. Biometrics, 37, 391–411.
Examples
require(graphics)
pairs(mtcars, main = "mtcars data", gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data = mtcars,
panel = panel.smooth, rows = 1)
## possibly more meaningful, e.g., for summary() or bivariate plots:
mtcars2 <- within(mtcars, {
vs <- factor(vs, labels = c("V", "S"))
am <- factor(am, labels = c("automatic", "manual"))
cyl <- ordered(cyl)
gear <- ordered(gear)
carb <- ordered(carb)
})
summary(mtcars2)
Gunakan fungsi dim()
untuk menemukan dimensi kumpulan data dan fungsi names()
untuk melihat nama variabel:
Contoh
Data_Cars <- mtcars # buat variabel kumpulan data mtcars untuk pengaturan yang lebih baik # Gunakan dim() untuk menemukan dimensi kumpulan data dim(Data_Cars) # Gunakan names() untuk menemukan nama variabel dari kumpulan data names(Data_Cars)
Output :
[1] 32 11
[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
[11] "carb"
Gunakan fungsi rownames()
untuk mendapatkan nama setiap baris di kolom pertama, yaitu nama setiap mobil:
Contoh
Data_Cars <- mtcars rownames(Data_Cars)
Output :
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710"
[4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant"
[7] "Duster 360" "Merc 240D" "Merc 230"
[10] "Merc 280" "Merc 280C" "Merc 450SE"
[13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood"
[16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128"
[19] "Honda Civic" "Toyota Corolla" "Toyota Corona"
[22] "Dodge Challenger" "AMC Javelin" "Camaro Z28"
[25] "Pontiac Firebird" "Fiat X1-9" "Porsche 914-2"
[28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino"
[31] "Maserati Bora" "Volvo 142E"
Dari contoh di atas, kita dapat menemukan bahwa kumpulan data memiliki 32 observasi (Mazda RX4, Mazda RX4 Wag, Datsun 710, dll) dan 11 variabel (mpg, cyl, disp, dll).
Variabel didefinisikan sebagai sesuatu yang dapat diukur atau dihitung.
Berikut penjelasan singkat variabel-variabel dari set data mtcars:
Nama Variabel | Deskripsi |
---|---|
mpg | Mil / (AS) Gallon |
cyl | Jumlah silinder |
disp | Pemindahan |
hp | Tenaga horsepower |
drat | Rasio poros belakang |
wt | Berat(1000 lbs) |
qsec | 1/4 mil waktu |
vs | Mesin (0 = V-shaped, 1 = straight) |
am | Transmission (0 = automatic, 1 = manual) |
gear | Jumlah gigi maju |
carb | Jumlah karburator |
Jika ingin mencetak semua nilai yang dimiliki variabel, akses data frame dengan menggunakan tanda $
dan nama variabel (misalnya cyl
(cylinders)):
Contoh
Data_Cars <- mtcars Data_Cars$cyl
Output :
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
Untuk mengurutkan nilai, gunakan fungsi sort()
:
Contoh
Data_Cars <- mtcars sort(Data_Cars$cyl)
Output :
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
Dari contoh di atas, terlihat bahwa kebanyakan mobil memiliki 4 dan 8 silinder.
Sekarang setelah kita memiliki beberapa informasi tentang kumpulan data, kita bisa mulai menganalisisnya dengan beberapa nomor statistik.
Misalnya, kita bisa menggunakan fungsi summary()
untuk mendapatkan ringkasan statistik dari data:
Contoh
Data_Cars <- mtcars summary(Data_Cars)
Output :
mpg cyl disp hp
Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
Median :19.20 Median :6.000 Median :196.3 Median :123.0
Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
drat wt qsec vs
Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
Median :3.695 Median :3.325 Median :17.71 Median :0.0000
Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
am gear carb
Min. :0.0000 Min. :3.000 Min. :1.000
1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
Median :0.0000 Median :4.000 Median :2.000
Mean :0.4062 Mean :3.688 Mean :2.812
3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
Max. :1.0000 Max. :5.000 Max. :8.000
Jangan khawatir jika kamu tidak memahami nomor keluaran, nanti kamu akan segera menguasainya jika banyak berlatih dan belajar.
Fungsi summary()
mengembalikan enam angka statistik untuk setiap variabel:
Min
Kuantil pertama (persentil)
Median
Mean
Kuantil ketiga (persentil)
Max